爬虫专用网站glidedsky-爬虫-基础第一关

爬虫实战：攻略GlidedSky第一关

最新推荐文章于 2022-03-16 07:35:44 发布

原创

最新推荐文章于 2022-03-16 07:35:44 发布 · 932 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python

哈喽！大家好！

分享一个专门用于检验你爬虫技术的网站，不会被请去喝茶的专用网站glidedsky

爬虫-基础第一关

废话不多说，自学Python两个月，第一次分享，过第一关着实废了不少功夫，以前学的不扎实，又翻了模拟登陆，去空格，计算数字等等重新学了一遍，最后才成功了，打算记录下来，虽然过程有点繁琐，但都是一步一个脚印踩出来的，虽然有便捷的方法，但我想用自己的方式拿下来，只有这样才更能理解爬取的整个过程是怎么回事，如若有不足之处还请多多指教！

完整代码如下：

import requests
from lxml import etree
import re

header = {
    'user-agent': '你自己的UA，不知道的同学可以网上找怎么弄，很简单',
}

# 定义一个变量等下用来存放计算结果
result = 0

#创建session保持回话连接
s = requests.Session()
url = 'http://www.glidedsky.com/login'

#发送get请求获取登陆页面信息
res = s.get('http://www.glidedsky.com/login',headers=header).text

#使用re解析登陆页面，得到token值
token = re.findall('<input type="hidden" name="_token" value="(.*?)">',res)[0]

#将token和账号密码封装成字典
data = {
    '_token': token,
    'email': '你自己的登陆账号',
    'password': '你自己的登陆密码',
}

# 发送post请求，携带data模拟登陆，并获取页面源代码
req = s.post(url=url,data=data).text

# 用xpath解析得到题目所在连接
html = etree.HTML(req)
text_url = html.xpath('//td[@class="col-8"]/a/@href')[0