创建项目目录
# 创建虚拟环境并且进入
$ workon dog
# 查看是否创建成功
$ ls
# 进入项目文件夹
$ cd EastMoneyBusiness
# 初始化项目仓库
$ git init
添加 git 相关文件
主要是
对项目设置缓存模式
设置不遵守 robots 协议
创建爬虫
# business 是爬虫文件以及爬虫项目的名称
# so.eastmoney.com 是域名
scrapy genspider business so.eastmoney.com
生成了爬虫文件 business.py
爬虫逻辑
设计数据结构 items
爬虫初始化
拼接请求参数
发起初始请求
请求列表页
请求详情页
尝试命令行调试
运行结果:
刚开始是有数据的,后来就是 403 了,所以我们要先把代理 ip 的问题处理一下。
更新时间: 2019-12-18