基于Scrapy框架的Python资料收集爬虫学习入门，轻松掌握！

最新推荐文章于 2024-11-05 15:28:12 发布

西安未央

最新推荐文章于 2024-11-05 15:28:12 发布

阅读量45

点赞数 1

分类专栏：大数据文章标签： scrapy python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hanjiepo/article/details/132430698

版权

大数据专栏收录该内容

6 篇文章 0 订阅

订阅专栏

概述

Scrapy是一款不可多得的经典爬虫框架，用过的人都说好!学完本节内容你能使用该框架开发出一款实用的文章内容，图片下载，数据存储，高效率的爬虫。

详细

1.使用说明

目标：学完本节内容你能使用该框架开发出一款实用的文章内容，图片下载，数据存储，高效率的爬虫。

2.运行的环境

win7(64位)+scrapy2.2.1

3.安装Scrapy

pip install scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

4.新建scrapy项目(项目路径自定，假如存放D盘)

a.打开命令窗口，cd 到 D盘，输入命令 scrapy startproject Bird ,回车执行，效果如下图 (两张图片)：

5.进入项目文件：cd Bird，然后创建爬虫入口文件

a. scrapy genspider search xxxx.com , 回车执行，效果如下图 (两张图片)：

6.编写items.py文件

a.items.py,这是创建容器的地方，爬取的信息分别放到不同容器里

b.修改items.py文件存放爬虫信息

7.分析源目标网页，编写爬虫入口文件Bird/search.py

8.自定义管道文件pipelines.py的编写

9.配置爬虫文件：settings.py(注意:D:\Bird\data文件夹需要自己手动创建)

10.运行效果展示

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

西安未央 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。