1.安装
unbuntu 16.04 lts下直接pip3 install scrapy
2.创建项目
scrapy startproject projec_name
3.目录层级
project_name
project_name
__init__.py
items.py(继承scrapy.items类,用于存储item)
middlewares.py(???)
piplines.py(管道,还没用上)
__pycahe__
settings.py(设置,目前没什么卵用)
spiders(爬虫所在)
__init__.py
__pycahe__
scrapy.cfg(配置文件)
4.步骤:
(1):确定爬取目标,a web and web item
(2):修改items.py 属性 = scrapy.Field()
(3):创建爬虫,scrapy genspider spider_name "域名“
(4):填充start url,parse函数处理每个url 返回的 response
(5):scrapy crawl spider_name 执行
5.总结
安装顺利,理解和调用上有一定难度,不知道能否处理动态网页ajax异步等等,慢慢学。QAQ要找个实习做,赶紧补点知识。