python爬虫之cookies

cookies在web领域里面是一个很神奇的东西,它可以理解为你的密匙,
比如在新浪微博中你登录只有,会有记住密码这一个选项。当下次登录的时候,就不用输入对应的账号密码了,这是为啥?
这就是cookies的用处,它可以记住你的账号密码,不过记住的不是明文的账号密码,它是一段加密之后的数据段,

我们怎么获取cookies呢?
答案:抓包
每次我们点击登录按钮的时候,网站会提交一份包含账号密码,Host,Referer,User-Agent,等的一些信息,同时,生成一份cookies,通过抓包软件抓取发送的这条信息之后,我们就得到了直接连接sina.cn的钥匙。下次登入的时候,就直接把cookies发送过去就好了,
我这里使用的抓包软件是Fiddler,挺简洁的,

那么,我们抓到cookies之后怎么使用呢?
我们在前面介绍过两个库,requests个urllib2.HTTPCookieProcessor
requests有一个cookies函数,这个函数的具体功能可以在python shell里面输入如下查看他的信息

dir(requests.cookies)

填写这个变量之后,再get一次,就可以得到想要的html数据了。
至于cookies有时候是变动的这一条,你们可以自己去摸索,我在网上学习的sina.cn变动很简单,你们可以从这个下手

还有一个方法urllib2.HTTPCookieProcessor

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
urllib2.install_opener(opener)

这样添加进去了,只有只需要添加必要的header就可以直接urlopen了,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用Python爬取微博,通常需要添加cookies以模拟登陆状态。通过将cookies添加到请求头中,可以让爬虫在请求时具有登陆状态。 在爬取微博时,可以通过以下步骤获取cookies: 1. 打开浏览器,登陆微博账号。 2. 在浏览器中按F12键,打开开发者工具。 3. 在开发者工具中切换到"Network"(网络)选项卡。 4. 刷新页面,找到名为"Weibo.com"或类似名称的请求,点击该请求。 5. 在右侧的"Headers"(请求头)中,查找"Request Headers"(请求头部信息)。 6. 在"Request Headers"中,找到"cookie"字段,复制其中的内容即为所需的cookies。 通过以上步骤获取的cookies可以直接添加到爬虫的请求头中,以模拟登陆状态进行微博爬取操作。请注意,为了遵守微博的使用规则,请确保在爬取微博时遵守相关法律法规,并尊重用户隐私和微博的使用限制。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [python爬取微博评论的实例讲解](https://blog.csdn.net/weixin_34138673/article/details/114446926)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [通过微博简易上手Python爬虫](https://blog.csdn.net/weixin_43827628/article/details/113139618)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值