Scrapy基本介绍
scrapy是一种用于爬虫的框架,并提供了相当成熟的模板,大大减少了程序员在编写爬虫时的劳动需要。
Command line tool & Project structure
使用scrapy需要先创建scrapy project,之后再于project文件夹路径下生成spider(爬虫)文件,编写完程序后,再运行爬虫(手动指定保存文件)。以上过程由命令行执行,具体如下:
- scrapy startproject
- scrapy genspider
- scrapy crawl [-o filename]
后面两个命令均要在myproject文件夹(第一个myproject)路径下执行。而由第一个命令创建的scrapy项目结构如下:
myproject/ scrapy.cfg myproject/ __init__.py items.py middlewares.py pipelines.py settings.py spiders/ __init__.py spider_name.py