爬取过程中的登录问题

本文介绍了爬取过程中如何解决登录问题,包括通过cookie模拟登录、表单模拟登录,以及面对有验证码的登录场景。在cookie模拟登录中,强调了cookie的有效期问题;在表单模拟登录时,提到了发送表单数据来完成登录认证;对于有验证码的登录,提到了手动输入的方式。
摘要由CSDN通过智能技术生成

一.cookie模拟登录

有些时候需要登录帐号之后才能看到一些数据,所以要想抓取这些数据,就必须先登录,而浏览器主要通过cookie的方式来检验用户的登录状态。有些时候,可以直接通过从浏览器复制cookie到headers来进行模拟登录

例如:我想要得到豆瓣的个人中心中的内容,我们首先必须要登录进豆瓣才能看到这些信息。

import requests
from fake_useragent import UserAgent

url = 'https://www.douban.com/people/188467803/'  ##此处的url为你进入自己豆瓣个人中心后的url地址
ua = UserAgent()
# 下面是通过浏览器查看的cookie信息,这里要粘贴你自己从浏览器复制的cookie信息
mycookie = 'll="108314"; ' \
           'bid=qUvixHkKSB8; ' \
           '_pk_id.100001.8cb4=39dacbb455f97d1b.1543920123.3.1544337682.1543922308.; ' \
           '__utma=30149280.788877703.1543920127.1543922320.1544336627.3;' \
           ' __utmz=30149280.1544336627.3.3.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; ' \
           '_vwo_uuid_v2=DDB52E87A46FF4625866BBD11DE3B963F|45d426c7f25f362f593760123a3421f7;' \
           
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值