1、获取响应
urllib(python3)/urllib2-urllib(python2)
requests(urllib3) --get/post
2、解析响应
HTML、json
re/bs4/xpath(描述性语句)
3、通用动态数据加载 selenium(自动化测试框架) + phantomJS(无界面浏览器)、handles
4、scrapy框架
高性能(多线程-10条、并发-16的框架)、高定制(爬虫)
提供了数据的下载、解析(xpath)、持久化
5、scrapy-redis(分布式策略)
核心--redis-组件(一主多从) ---在redis实现任务分配、指纹去重
根本--scrapy
6、解决的问题
反反爬虫(爬虫工程师)
反爬虫(对web后端--Django中间件)