爬虫未来学习方向（实验楼最后一章节）

最新推荐文章于 2023-07-22 15:45:27 发布

gnipgnoy

最新推荐文章于 2023-07-22 15:45:27 发布

阅读量239

点赞数

分类专栏： python新人笔记文章标签：爬虫学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gnipgnoy/article/details/125792477

版权

python新人笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

前言
一、多线程爬虫与常见反爬手段
二、反爬方式
三、爬虫框架
四、爬取手机 APP
五、分布式爬虫

前言

基础部分学完后，学习方向是从基础部分提高，到爬虫框架，到手机 APP 爬虫，再到分布式爬虫，每个领域都需要投入精力去学习与研究。为了不让你迷失到爬虫世界里，这里为你梳理了一条最简单、最直接的技术线。。

一、多线程爬虫与常见反爬手段

本系列课程主要为大家介绍的是爬虫入门相关知识，9 讲过后你已经可以编写常见的爬虫程序，但现在我们学习的爬虫都称之为单线程或单进程爬虫，效率非常低，如果你想让你的爬虫程序效率成倍提升，那首先要学习的就是多线程或多进程爬虫。

多线程与多进程爬虫需要学习的相关技术点如下（包含但不仅限于）。

Python threading 模块；（多线程）
Python Queue 模块；
Python multiprocessing 模块；（多进程）
Python asyncio 模块。
python多线程的用法
python多进程的用法

以上内容学习之后，对爬虫程序运行的效率会有极大的提升。

基础部分除了爬虫效率外，还需要了解常见的反爬手段。之前的课程只提及了最简单的反爬手段，UA 判断，除了它以外，常见的反爬方式如下。

二、反爬方式

验证码，需要掌握验证码识别技术；
IP 限制，需要学习代理相关知识；
字体反爬，JS 加密，需要学习前端加密相关知识。

以上内容为爬虫基础部分需要提高的相应技术点，可以作为重点去针对性学习。

三、爬虫框架

在实际编码中 requests 只是最简单与最常用的爬虫库，在工作中还有 2 个常用爬虫框架需要掌握。

scrapy
pyspider

以上两款框架也属于爬虫编写者必备的技能栈，在后续的学习过程也需要逐步掌握。

关于它们的相关资料非常多，在搜索引擎输入关键字即可检索。

手机 APP 爬虫
本课程中所有实验都是针对 Web 端 PC 站点进行爬取，但这只是爬虫的一个方向。

随着移动互联网时代的兴起，手机 APP 爬取，也成为了爬虫工程师日常工作之一。

四、爬取手机 APP

如何爬取手机 APP 内容，可以从下述内容开始学习。

Fiddler 工具的使用；
Charles 工具的使用；
mitmproxy 与 mitmdump；
Appium。

更高阶的 APP 反编译涉及法律问题，学习可以但不建议应用。

五、分布式爬虫

当目标数据量大到一定程序时，单台电脑已经无法满足要求，此时就要针对性的去学习分布式爬虫相关技术了，可以从下述内容入手学习。

Scrape-Redis
Celery
学习到分布式爬虫之后，爬虫才真正的领域为你展开，你将面对海量的数据，真正进入大数据时代。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫未来学习方向（实验楼最后一章节）

基础部分学完后，学习方向是从基础部分提高，到爬虫框架，到手机APP爬虫，再到分布式爬虫，每个领域都需要投入精力去学习与研究。为了不让你迷失到爬虫世界里，这里为你梳理了一条最简单、最直接的技术线。。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。