scrapy初学总结

最新推荐文章于 2024-09-25 09:59:34 发布

最冷的风

最新推荐文章于 2024-09-25 09:59:34 发布

阅读量131

点赞数 2

分类专栏：总结文章标签： scrapy python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43323265/article/details/90740136

版权

总结专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、下载安装

1.下载Twistedd的whl文件安装（https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted）

打开cmd窗口，输入安装指令（pip install Twisted-19.2.0-cp37-cp37m-win32.whl ) 注意cp37是python3.7版本win32是32位系统。

2.完成Twisted安装后，就可以安装scrapy (pip install scrapy ）

3.上面是windows下的安装方法，linux直接pip安装就好。

二、创建项目

scrapy startproject baidu

scrapy startproject是创建项目命令符

baidu是项目名称

创建项目后，可以在创建目录找到"baidu"文件夹，在pycharm下打开该文件夹查看目录结构

三、编写代码

1.打开settings.py,发现文件大部分内容已被注释，注释内容有配置代码、配置说明和相应的官方文档链接。设置USER_AGENT（模仿浏览器）、DOWNLOAD_DELAY（间隔的时间）、ITEM_PIPELINES（指定数据入库的函数）

2.打开items.py,这里只需定义类属性，属性名自已随便写，所有属性全被赋值为scrapy.Field()

3.打开pipelines.py,这里的类就是settings.py配置ITEM_PIPELINES的内容。数据存储主要在类的方法process_item（）中执行。

4.打开spiders文件夹，创建py文件，这个py文件就是我们重点要写的爬虫规则。

这个文件也可以用命令自动生成,打开cmd 输入scrapy genspider spider_name website_domain,这里spider_name是py文件名，website_domain是网页域名。

四、运行项目

这里不要右键运行，要在cmd里输入scrapy srawl baidu 来运行。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。