Scrapy入门-爬取books.toscrape.com

最新推荐文章于 2025-03-01 23:26:15 发布

mapyking

最新推荐文章于 2025-03-01 23:26:15 发布

阅读量2.3k

点赞数 2

分类专栏： Python爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/alittlehorse/article/details/105153057

版权

Python爬虫专栏收录该内容

11 篇文章

订阅专栏

创建项目与爬虫
查看网页源码并分析

分析须爬取内容
内容位于网页中的位置

封装Item
根据分析需要爬取内容建立Item对象
查看内容位于网页中的位置，并用scrapy shell测试是否能正常获取所需要的值

获取成功 LinkExtractor方法可以成功获取链接
以此方法建立解析函数 prase
根据第二、第三点步骤分析得出单一书本页面需爬取内容与页面位置
如：
书名

评价等级

再次进入shell中测试
根据一切方法匹配到值

别忘记将Item yield出去

yield book

此时，一页中所有书本链接与一本书中的获取值已实现
需实现下一页跳转方法
实现思路：获取下一页url（网页拼接urljoin()方法或者LinkExtractor）→ callback返回实现跳转
建立主函数运行并输出结果

结果：（success）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。