更多精彩内容详见个人量化交易专辑索引
1. 安装Scrapy
pip install --upgrade Scrapy
2. 建立Scrapy工程
scrapy startproject <project name>
3. 创建爬虫
scrapy genspider <spider name> <url>
3.1 定义item
3.2 编写爬虫
重写start_requests函数,想要爬取的网站发起url请求
重写parse函数,解析获取的网站页面数据,转换为item,送pipelines进一步处理
3.3 编写pipelines
重写process_item、open_spider、close_spider等函数,处理item,比如存储到数据库。
4. 运行爬虫
scrapy crawl <spider name>