爬取的起始页:投诉_阳光热线问政平台
目的是爬取这些投诉的标题、内容、图片、发帖时间等信息。
1、创建Scrapy项目
使用全局命令startproject创建项目,创建新文件夹并且使用命令进入文件夹,创建一个名为yangguang的Scrapy项目。
格式为:scrapy startproject +项目名
scrapy startproject yangguang
该命令将会创建包含下列内容的目录:
yangguang/
scrapy.cfg
yangguang/
__init__.py
items.py
pipelines.py
settings.py
spiders/
__init__.py
...
2.使用项目命令genspider创建Spider
格式: scrapy genspider +爬虫名 +允许爬虫的范围
scrapy genspider yg sun0769.com
3.定义item
I