一、下载安装
1.下载Twistedd的whl文件安装(https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted)
打开cmd窗口,输入安装指令(pip install Twisted-19.2.0-cp37-cp37m-win32.whl ) 注意cp37是python3.7版本win32是32位系统。
2.完成Twisted安装后,就可以安装scrapy (pip install scrapy )
3.上面是windows下的安装方法,linux直接pip安装就好。
二、创建项目
scrapy startproject baidu
scrapy startproject是创建项目命令符
baidu是项目名称
创建项目后,可以在创建目录找到"baidu"文件夹,在pycharm下打开该文件夹查看目录结构
三、编写代码
1.打开settings.py,发现文件大部分内容已被注释,注释内容有配置代码、配置说明和相应的官方文档链接。设置USER_AGENT(模仿浏览器)、DOWNLOAD_DELAY(间隔的时间)、ITEM_PIPELINES(指定数据入库的函数)
2.打开items.py,这里只需定义类属性,属性名自已随便写,所有属性全被赋值为scrapy.Field()
3.打开pipelines.py,这里的类就是settings.py配置ITEM_PIPELINES的内容。数据存储主要在类的方法process_item()中执行。
4.打开spiders文件夹,创建py文件,这个py文件就是我们重点要写的爬虫规则。
这个文件也可以用命令自动生成,打开cmd 输入scrapy genspider spider_name website_domain,这里spider_name是py文件名,website_domain是网页域名。
四、运行项目
这里不要右键运行,要在cmd里输入scrapy srawl baidu 来运行。