@什么是登录壁垒
- 如今的很多网站要求你必须是注册用户并且登录的状态下,才为你提供服务
- 所以爬虫的许多访问和抓取工作,也必须以登录为前提
- 用户通过用户名、密码、验证码登录,通常提交的都是POST请求
- 我们要通过抓包的方式分析获取请求地址、表单参数
- 登录成功后,后续的请求的发起,全部使用登录时使用的会话对象
@获取登录首页元素树
- 这里特别注意,是使用的会话对象session发起的请求
- 因为我们之所以要突破登录,是因为很多后续服务必须基于登录,即整个访问过程都是在同一会话对象下的
#创建会话对象
sess = requests.session()
# 抓包获取的古诗词登录页面url
url_str = 'http://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
# 获得页面及其元素树