Items 定义爬取的数据
Spiders 编写爬取网站的规则
选择器(Selectors) 使用XPath提取网页的数据
Scrapy终端(Scrapy shell) 在交互环境中测试提取数据的代码
Item Loaders 使用爬取到的数据填充
item Item Pipeline 后处理(Post-process),存储爬取的数据
Feed exports 以不同格式输出爬取数据到不同的存储端
Link Extractors 方便用于提取后续跟进链接的类。
cmd命令 scrapy startproject ITcast 新建项目
starrtporject :表示创建项目
ITcast:项目名称
scrapy genspider itcast “http://www.itcast.cn/”
genspider:表示生成一个爬虫(默认scrapy.Spider类)
itcast :表示爬虫名(对应爬虫代码里的name参数)
http://www.itcast.cn/ :表示允许爬虫爬取范围
scrapy crawl itcast
crawl:表示启动一个scrapy 爬虫
itcast:表示需要启动的爬虫名(对应爬虫代码的name参数)
itcast.py