scrapy初学总结

一、下载安装

1.下载Twistedd的whl文件安装(https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

打开cmd窗口,输入安装指令(pip install Twisted-19.2.0-cp37-cp37m-win32.whl ) 注意cp37是python3.7版本win32是32位系统。

2.完成Twisted安装后,就可以安装scrapy (pip install scrapy )

3.上面是windows下的安装方法,linux直接pip安装就好。

二、创建项目

scrapy startproject baidu

scrapy startproject是创建项目命令符

baidu是项目名称

创建项目后,可以在创建目录找到"baidu"文件夹,在pycharm下打开该文件夹查看目录结构

三、编写代码

1.打开settings.py,发现文件大部分内容已被注释,注释内容有配置代码、配置说明和相应的官方文档链接。设置USER_AGENT(模仿浏览器)、DOWNLOAD_DELAY(间隔的时间)、ITEM_PIPELINES(指定数据入库的函数)

2.打开items.py,这里只需定义类属性,属性名自已随便写,所有属性全被赋值为scrapy.Field()

3.打开pipelines.py,这里的类就是settings.py配置ITEM_PIPELINES的内容。数据存储主要在类的方法process_item()中执行。

4.打开spiders文件夹,创建py文件,这个py文件就是我们重点要写的爬虫规则。

这个文件也可以用命令自动生成,打开cmd 输入scrapy genspider spider_name website_domain,这里spider_name是py文件名,website_domain是网页域名。

四、运行项目

这里不要右键运行,要在cmd里输入scrapy srawl baidu  来运行。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值