python怎么创建scrapy框架_如何用scrapy框架构建python爬虫？

最新推荐文章于 2023-07-12 09:30:00 发布

weixin_39854778

最新推荐文章于 2023-07-12 09:30:00 发布

阅读量103

点赞数

文章标签： python怎么创建scrapy框架

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39854778/article/details/111434463

版权

小编一直在更新文章，主要还是把更多的python知识分享给小伙伴们，当然小编也在写python文章的同时，不断加深了对Python的理解。讲了这么多篇的scrapy框架，主要是为了之后抓取数据，搭建python爬虫做准备的。听到这里很多小伙伴是不是恍然大悟，接下来一起学习搭建方法吧。

制作爬虫，总体来说分为两步：先爬再取。

也就是说，首先你要获取整个网页的所有内容，然后再取出其中对你有用的部分。

要建立一个Spider，你必须用scrapy.spider.BaseSpider创建一个子类，并确定三个强制的属性：name：爬虫的识别名称，必须是唯一的，在不同的爬虫中你必须定义不同的名字。

start_urls：爬取的URL列表。爬虫从这里开始抓取数据，所以，第一次下载的数据将会从这些urls开始。其他子URL将会从这些起始URL中继承性生成。

parse()：解析的方法，调用的时候传入从每一个URL传回的Response对象作为唯一参数，负责解析并匹配抓取的数据(解析为item)，跟踪更多的URL。

创建douban_spider.py文件，保存在douban\spiders目录下。并导入我们需用的模块

编写主要模块：

然后运行一下，

会看到有403错误，是因为我们爬取的时候没加头部导致的：

我们来伪装一下，在settings.py里加上USER_AGENT：USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5

(KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'

再次运行，即可看到正确结果。

看完本篇的文章，相信小伙伴们对用scrapy框架构建python爬虫有了一定的了解，还没搭建好的小伙伴也不用着急，多尝试找寻搭建的方法。更多Python学习推荐:PyThon学习网教学中心。

weixin_39854778

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python怎么创建scrapy框架_如何用scrapy框架构建python爬虫？

小编一直在更新文章，主要还是把更多的python知识分享给小伙伴们，当然小编也在写python文章的同时，不断加深了对Python的理解。讲了这么多篇的scrapy框架，主要是为了之后抓取数据，搭建python爬虫做准备的。听到这里很多小伙伴是不是恍然大悟，接下来一起学习搭建方法吧。制作爬虫，总体来说分为两步：先爬再取。也就是说，首先你要获取整个网页的所有内容，然后再取出其中对你有用的部分。要建立...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。