一. 第一阶段
-
python语言基础
-
requests请求相关,selenium基础
-
xpath解析,BeautifulSoup解析,PyQuery等解析库
-
MySQL, Mongodb等数据库
-
kafka消息队列使用, redis使用
-
ElasticSearch搜索引擎
-
scrapy使用
-
熟悉Git操作、linux环境开发
二. 第二阶段
-
Ajax:能通过ajax接口获取数据
-
Puppeteer: 基于js的爬虫框架,能直接执行js
-
Pyppeteer: 基于puppeteer开发的python版本,需要异步知识
-
selenium进阶,appium自动化工具,splash动态渲染页面的抓取
-
多进程,多线程,协程抓取
-
scrapy分布式,scrapy-redis使用
-
Charles和Fidder抓包,mitmproxy中间代理工具
-
安卓adb工具
三. 第三阶段
-
消息队列相关,如:kafka, celery, RabbitMQ
-
对于Scrapy的Redis、Redis-BloomFilter、Cluster 的理解和掌握
-
分流技术:token池,cookie池,sign池
-
验证码破解,ip代理池,用户行为,账号管理
-
反爬(验证码、IP检测、Cookies 池、Token 池、Sign 池)
- 大数据处理(Hive/MR/Spark/Storm)
四. 第四阶段
-
js逆向:读懂js代码, 分析目标站点的加密逻辑;
-
app逆向:xposed可在不改变原应用代码的基础上植入自己的代码;
-
智能化爬虫
-
运维:Kubernetes, Prometheus, Grafana
-
具有数据挖掘、自然语言处理、信息检索、机器学习经验