一、初级爬虫:
python(基础语言)
requests(请求相关)
lxml(解析相关)
xpath(解析相关)
beautifulSoup(解析相关)
pyQuery(解析相关)
mysql(数据库)
MongoDB
Elasticsearch(企业级搜索引擎)
Kafka(消息队列)
二、中级爬虫:
Ajax(获取数据)
Puppeteer(基于js的爬虫框架)
Pyppeteer(基于Puppeteer开发的python版本)
Selenium(常见的自动化工具)
Splash(动态渲染页面的抓取)
多进程、多线程、协程
fiddler(抓包工具)
mitmproxy(中间人代理工具)
appium(自动化工具)
adb(安卓adb工具)
Charles(抓包工具)
三、高级爬虫
消息队列相关(RabbitMQ、Celery、Kafka)
Redis(缓存数据库、MongoDB)
Scrapy(Redis、Redis-BloomFilter、Cluster)
验证码破解
IP代理池
用户行为管理
建池子分流技术(cookies池、sign池、tokon池)
账号管理
四、更高级别
js逆向
App逆向
智能化爬虫
运维(Kuberbeters、Prometheus、Grafana)
flink(数据消息同步)