爬虫未来学习方向(实验楼最后一章节)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

基础部分学完后,学习方向是从基础部分提高,到爬虫框架,到手机 APP 爬虫,再到分布式爬虫,每个领域都需要投入精力去学习与研究。为了不让你迷失到爬虫世界里,这里为你梳理了一条最简单、最直接的技术线。。


一、多线程爬虫与常见反爬手段

本系列课程主要为大家介绍的是爬虫入门相关知识,9 讲过后你已经可以编写常见的爬虫程序,但现在我们学习的爬虫都称之为单线程或单进程爬虫,效率非常低,如果你想让你的爬虫程序效率成倍提升,那首先要学习的就是多线程或多进程爬虫。

多线程与多进程爬虫需要学习的相关技术点如下(包含但不仅限于)。

以上内容学习之后,对爬虫程序运行的效率会有极大的提升。

基础部分除了爬虫效率外,还需要了解常见的反爬手段。之前的课程只提及了最简单的反爬手段,UA 判断,除了它以外,常见的反爬方式如下。

二、反爬方式

  • 验证码,需要掌握验证码识别技术;
  • IP 限制,需要学习代理相关知识;
  • 字体反爬,JS 加密,需要学习前端加密相关知识。

以上内容为爬虫基础部分需要提高的相应技术点,可以作为重点去针对性学习。

三、爬虫框架

在实际编码中 requests 只是最简单与最常用的爬虫库,在工作中还有 2 个常用爬虫框架需要掌握。

  • scrapy
  • pyspider

以上两款框架也属于爬虫编写者必备的技能栈,在后续的学习过程也需要逐步掌握。

关于它们的相关资料非常多,在搜索引擎输入关键字即可检索。

手机 APP 爬虫
本课程中所有实验都是针对 Web 端 PC 站点进行爬取,但这只是爬虫的一个方向。

随着移动互联网时代的兴起,手机 APP 爬取,也成为了爬虫工程师日常工作之一。

四、爬取手机 APP

如何爬取手机 APP 内容,可以从下述内容开始学习。

  • Fiddler 工具的使用;
  • Charles 工具的使用;
  • mitmproxy 与 mitmdump;
  • Appium。

更高阶的 APP 反编译涉及法律问题,学习可以但不建议应用

五、分布式爬虫

当目标数据量大到一定程序时,单台电脑已经无法满足要求,此时就要针对性的去学习分布式爬虫相关技术了,可以从下述内容入手学习。

Scrape-Redis
Celery
学习到分布式爬虫之后,爬虫才真正的领域为你展开,你将面对海量的数据,真正进入大数据时代。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值