未完成

       当你访问一个网页的时候,浏览器会向服务器发送访问请求,这个请求数据被成为请求头,其中包含许多信息,其中一条是浏览器的版本信息,User-Agent。所以我们的爬虫代码中要模拟一个请求头,来伪装成浏览器。

headers = {'User-Agent'="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0"}

       我们知道浏览器用久了会卡,这时候就需要清除缓存,cookie。cookie是什么呢?你在登陆某个网站时,输入用户名和密码之后浏览器会提示是否保存该密码,这个就是cookie。然后我们下次访问的时候,浏览器会把cookie中的内容通过headers发送给服务器。

headers = {'cookies'=""}

使用cookiejar通过获取cookies,登陆网页

from http import cookiejar

1.创建cookiejar实例

cookie = cookiejar.CookieJar()

2.生成cookie管理器

cookie_handler = request.HTTPCookieProcessor(cookie)
3.创建HTTP管理器
http_handler = request.HTTPHandler()

4.创建HTTPS管理器

https_handler = request.HTTPSHandler()

5.创建请求管理器

opener = request.build_opener(cookie_handler,http_handler,https_handler)

6.使用请求管理器模拟初次登陆,获取cookie

7.再次使用cookie访问网页



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值