《精通Python爬虫框架Scrapy》第5章迅速的爬虫技巧

最新推荐文章于 2024-05-31 21:24:28 发布

人民邮电出版社有限公司

最新推荐文章于 2024-05-31 21:24:28 发布

阅读量82

点赞数

分类专栏：精通Python爬虫框架Scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rmyd01/article/details/118604615

版权

精通Python爬虫框架Scrapy 专栏收录该内容

19 篇文章 1 订阅 ¥35.00 ¥99.00

订阅专栏

第5章　迅速的爬虫技巧

第3章关注的是如何从页面中抽取信息，并将其存储到Items中。我们所学习的内容已经覆盖了大部分常见的Scrapy用例，足够你创建并运行爬虫了。而在本章中，我们将看到更多特殊的例子，以便让你更加熟悉Scrapy的两个最重要的类——Request和Response，即我们在第3章中提到的UR2IM抓取模型中的两个R。

5.1　需要登录的爬虫

通常情况下，你会发现自己想要抽取数据的网站存在登录机制。大部分情况下，网站会要求你提供用户名和密码用于登录。你可以从http://web:9312/dynamic（从dev机器访问）或http://localhost:9312/ dynamic（从宿主机浏览器访问）找到我们要使用的例子。如果使用"user"作为用户名，"pass"作为密码的话，你就可以访问到包含3个房产页面链接的网页。不过现在的问题是，要如何使用Scrapy执行相同的操作？

让我们使用Google Chrome浏览器的开发者工具来尝试理解登录的工作过程（见图5.1）。首先，打开Network选项卡（1）。然后，填写用户名和密码，并单击Login（2）。如果用户名和密码正确，你将会看到包含3个链接的页面。如果用户名和密码不匹配，将会看到一个错误页。

了解本专栏

人民邮电出版社有限公司

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
《精通Python爬虫框架Scrapy》第5章迅速的爬虫技巧

第5章　迅速的爬虫技巧第3章关注的是如何从页面中抽取信息，并将其存储到Items中。我们所学习的内容已经覆盖了大部分常见的Scrapy用例，足够你创建并运行爬虫了。而在本章中，我们将看到更多特殊的例子，以便让你更加熟悉Scrapy的两个最重要的类——Request和Response，即我们在第3章中提到的UR2IM抓取模型中的两个R。 5.1　需要登录的爬虫通常情况下，你会发现自己想要抽...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人民邮电出版社有限公司 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。