1 理论知识
pip install scrapy -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
scrapy -h
scrapy startproject python123demo
D:\pycodes>scrapy startproject python123demo
D:\pycodes\python123demo>scrapy genspider demo python123.io
D:\pycodes\python123demo>scrapy crawl demo
2 股票数据Scrapy爬虫实例介绍
- 目标:获取上交所和深交所所有股票的名称和交易信息
- 输出:保存到文件中
- 技术路线:scrapy
- 数据网站的确定:东方财富网(获取股票列表):http://quote.eastmoney.com/stocklist.html;百度股票(获取个股信息):https://gupiao.baidu.com/stock/;单个股票(获取个股信息):https://gupiao.baidu.com/stock/sz002439.html
- 程序框架:编写spider处理链接爬取和页面解析;编写pipelines处理信息存储
- 实例编写: