使用Scrapy抓取需要登录的网站

最新推荐文章于 2024-08-05 10:37:56 发布

bluespacezero

最新推荐文章于 2024-08-05 10:37:56 发布

阅读量1.3w

点赞数 4

分类专栏： scrapy 网络爬虫 Python

本文链接：https://blog.csdn.net/q_an1314/article/details/51038114

版权

本文介绍了如何使用Scrapy框架处理需要登录的网站。通过发送POST请求模拟登录，Scrapy会自动处理Cookies以便后续请求。如果登录失败，爬虫会停止并显示错误页面。文章还提到，对于包含额外验证如nonce的复杂登录流程，Scrapy提供了内建功能来分步处理，包括获取表单数据和填充登录信息。

摘要由CSDN通过智能技术生成

经常在爬有些网站的时候需要登录，大多数网站需要你提供一个用户名和密码，在这种情况下，需要先向网站发送一个POST请求。可以使用Scrapy的FormRequest类，这个类和Request类很相似，只是多了一个extra参数，用这个参数可以传递表单数据。要使用这个类，先导入：

from scrapy.http import FormRequest

然后把start_urls替换成start_requests()方法，因为在这种情况下需要的不仅仅是一些URL（start_requests()方法的默认行为是从start_urls取出URL发出请求）。

在start_requests()方法中创建并返回一个FormRequest：

# Start with a login request
def start_requests(self):
    return [
        FormRequest(
        "http://web:9312/dynamic/login",
        formdata={
  "user": "user", "pass": "pass"}
        )]

Scrapy帮助我们处理了Cookies，只要登录之后，它就会在以后的请求中传递给服务器，就像浏览器做的一样。运行一下scrapy crawl：

$ scrapy crawl login
INFO: Scrapy 1.0.3 started (bot

最低0.47元/天解锁文章

bluespacezero

关注

4
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录