文章目录
一、编写Spider
1.1 Scrapy框架结构和工作原理
1.2 Request和Response对象
1.3 Spider开发流程
1.4 编写第一个Scrapy爬虫
二、Selector提取数据
2.1 Selector对象
2.2 Response内置Selector
2.3 Xpath
2.4 CSS选择器
三、Item封装数据
3.1 Item和Field
3.2 拓展Item子类
3.3 Field元数据
四、Item Pipeline处理数据
五、 LinkExtractor提取链接
六、Exporter导出数据
七、项目练习
八、下载文件和图片
九、模拟登陆
十、爬取动态页面
十一、数据保存
11.1 SQLite
11.2 MySQL
11.3 MongoDB
11.4 Redis
11.5 Excel
十二、HTTP代理
12.1 HttpProxyMiddleware
12.2 使用多个代理
12.3 获取免费代理
12.4 实现随机代理
12.5 使用第三方代理(以阿布云为例)
12.6 自己构建代理池
十三、分布式爬取
13.1 Redis的使用
13.2 scrapy-redis源码分析
13.3 使用scrapy进行分布式爬取
13.4 使用scrapyd部署scrapy
十四、 其他(后续补充)
常见加密算法,
python3执行javaScript脚本之pyexecjs, js2py
selenium介绍
phantomjs介绍
appium介绍
mitmproxy介绍
字符验证码破解
滑动验证码破解
点触验证码破解
等待补充