1.确保安装了myscrapy模块(爬虫专用)
2.scrapy startproject project_name
创建项目名为project_name的爬虫项目
文件目录:
spiders:在这下面创建爬虫文件,可以有多个
init.py #默认的 不动
**.py #自己定义的操作数据的文件
items.py #定义需要爬取的数据
settings.py:爬虫配置文件
middlewares.py #用来对spider返回的item列表进行数据的保存等操作,可以写入文件或保存到数据库
scrapy.cfg #项目配置文件
第一步:先确认需要获取的信息有哪些,编辑items.py文件
第二步:在settings.py中指定将items.py获取的内容输出到文件:
FEED_URI=‘Create_Account_info_2.xls’
FEED_FORMAT=‘xls’
FEED_EXPORT_ENCODING=‘ansi’
3.scrapy genspider 爬虫文件名 “域名”
这里进行数据获取