爬虫突破登录壁垒-1

最新推荐文章于 2024-08-08 08:16:13 发布

搬砖的乔布梭

最新推荐文章于 2024-08-08 08:16:13 发布

阅读量604

点赞数

分类专栏： Python爬虫完全攻略

本文链接：https://blog.csdn.net/u010986776/article/details/79257715

版权

Python爬虫完全攻略专栏收录该内容

16 篇文章 12 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了爬虫如何突破登录壁垒进行数据抓取。首先解释了登录壁垒的概念，然后详细阐述了通过抓包获取登录请求的地址、参数和表单数据。接着说明使用会话对象保持登录状态的重要性，并提到使用浏览器登录并抓包来辅助这一过程。最后提到了使用cookies作为另一种突破登录的方法，预告了后续更新的内容。

摘要由CSDN通过智能技术生成

@什么是登录壁垒

如今的很多网站要求你必须是注册用户并且登录的状态下，才为你提供服务
所以爬虫的许多访问和抓取工作，也必须以登录为前提
用户通过用户名、密码、验证码登录，通常提交的都是POST请求
我们要通过抓包的方式分析获取请求地址、表单参数
登录成功后，后续的请求的发起，全部使用登录时使用的会话对象

@获取登录首页元素树

这里特别注意，是使用的会话对象session发起的请求
因为我们之所以要突破登录，是因为很多后续服务必须基于登录，即整个访问过程都是在同一会话对象下的

    #创建会话对象
    sess = requests.session()

    # 抓包获取的古诗词登录页面url
    url_str = 'http://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'

    # 获得页面及其元素树

了解本专栏

超级会员免费看

搬砖的乔布梭

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录