爬虫的学习路径

一. 第一阶段

  1. python语言基础

  2. requests请求相关,selenium基础

  3. xpath解析,BeautifulSoup解析,PyQuery等解析库

  4. MySQL, Mongodb等数据库

  5. kafka消息队列使用, redis使用

  6. ElasticSearch搜索引擎

  7. scrapy使用

  8. 熟悉Git操作、linux环境开发

二. 第二阶段

  1. Ajax:能通过ajax接口获取数据

  2. Puppeteer: 基于js的爬虫框架,能直接执行js

  3. Pyppeteer: 基于puppeteer开发的python版本,需要异步知识

  4. selenium进阶,appium自动化工具,splash动态渲染页面的抓取

  5. 多进程,多线程,协程抓取

  6. scrapy分布式,scrapy-redis使用

  7. Charles和Fidder抓包,mitmproxy中间代理工具

  8. 安卓adb工具

三. 第三阶段

  1. 消息队列相关,如:kafka, celery, RabbitMQ

  2. 对于Scrapy的Redis、Redis-BloomFilter、Cluster 的理解和掌握

  3. 分流技术:token池,cookie池,sign池

  4. 验证码破解,ip代理池,用户行为,账号管理

  5. 反爬(验证码、IP检测、Cookies 池、Token 池、Sign 池)

  6. 大数据处理(Hive/MR/Spark/Storm)

四. 第四阶段

  1. js逆向:读懂js代码, 分析目标站点的加密逻辑;

  2. app逆向:xposed可在不改变原应用代码的基础上植入自己的代码;

  3. 智能化爬虫

  4. 运维:Kubernetes, Prometheus, Grafana

  5. 具有数据挖掘、自然语言处理、信息检索、机器学习经验

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值