萝卜爆肝Python爬虫学习路线

最近经常有小伙伴咨询,爬虫到底该怎么学,有什么爬虫学习路线可以参考下,萝卜作为非专业爬虫爱好者,今天就来分享下,对于我们平时的基础爬虫或者小规模爬虫,应该掌握哪些技能、需要如何学起!

当然了,由于个人水平有限,文章中不免有不准确的地方,欢迎斧正~

学习路线大纲

图片有点糊,没有办法,公众号不能上传原图,需要原图的小伙伴在文末获取

Python 基础

由于本篇主要介绍 Python 爬虫学习路线,所以对于 Python 基础知识,仅仅提取了最为基础的部分,应付基础爬虫完全够用了,当然,对于底层基础,肯定是掌握的越多、越牢固越好~

  • 环境搭建

    • Python安装

    • 开发工具 - PyCharm,VS Code

  • 变量

    • 定义变量

    • 命名规则

    • 基本数据类型

  • 基本数据结构

    • 字符串

    • 列表

    • 字典

    • 集合

    • 元组

  • 流程控制

    • 条件

    • 循环

  • 函数

    • 调用函数

    • 定义函数

    • 函数参数

    • lambda 函数

  • 面向对象编程

    • 类和对象

    • 访问限制

    • 装饰器

数据采集与解析

  • HTTP 基本原理

    • URI 和 URL 统一资源定位符

    • HTTP&HTTPS 请求与响应

    • HTML 组成原理

  • WEB 基本原理

    • JavaScript&HTML&CSS

    • 节点树与节点

    • Web 加载原理

    • 静动态 Web 页面

  • Socket 库

    • 基于 socket 协议的爬虫

  • Requests 库

    • requests 库的使用

    • cookie 与 session

    • 模拟登录

    • 请求头模拟

    • IP 代理

  • 正则表达式

    • re 模块的使用

    • 基本字符串、数字等匹配规则

    • 贪婪与非贪婪匹配

  • Xpath

    • 执行原理

    • 节点操作

    • 元素操作

多种采集方式

  • 同步采集

    • requests

  • 异步采集

    • aiohttp

    • aiofiles

  • Selenium

    • 环境搭建 - webdriver

    • 元素选择 - (id,css,class,xpath)

    • 模拟登录

    • 隐藏 selenium 特征

  • AJAX

    • Ajax 原理

    • Ajax 请求与响应解析

  • Pyppeteer

    • 环境安装

    • 模拟点击

    • 执行 JS 代码

存储知识

  • 本地文件

    • os 库

    • open 文件

    • 读写 Excel

    • 读写 CSV

  • MySQL

    • 表结构设计

    • 同步/异步写入 MySQL

  • Redis

    • 读写操作

    • 基本数据类型与选择

  • MongoDB

    • 单一写入

    • 批量写入

  • 与 Pandas 结合

    • 存储成 Pandas 数据结构

    • Pandas 基本操作

中间人代理

  • Charles

    • 安装与配置

    • 数据拦截

    • 安卓模拟器

  • Mitmproxy

    • 脚本编写

    • 数据截取

    • 代理响应

  • HttpCanary

    • 基本使用

爬虫框架

  • Scrapy

    • 环境搭建

    • 组件拆解

    • 通用爬虫

    • 分布式爬虫 - (scrapy-redis 使用,scrapy-redis 调度器)

  • Crawley

  • Selenium

    • 分布式部署

  • PySpider

反爬虫知识

  • 信息校验型

    • 模拟登录

    • Cookie 机制

    • 用户代理

    • 签名验证机制

    • header 机制

  • 动态渲染型

    • 页面异步加载

  • 文本混淆型

    • 图文混淆 - 关键信息以图片形式给出

    • 字体反爬 - (反爬原理,编码破解)

  • 特征识别型

    • 访问频率限制 - (IP 代理池,搭建个人 IP 代理池)

    • Selenium 特征检测 - 隐藏 Selenium 特征

  • 验证码

    • 验证码原理

    • 图文验证码

    • 点选验证码

    • 滑动验证码

    • 其他变态验证码

  • JS 混淆

    • JS 逆向

多终端爬虫

  • WEB 采集

  • APP 采集

  • 小程序采集

  • 数据去重

  • 断点采集

  • 增量采集

以上就是整理的基础爬虫所需的学习路线,当然鉴于个人水平有限,难免有不足之处,还望不吝指教!

下面分享一些免费好用的学习资料,大家自选,还是那句话,资料在精不在多,在收藏夹里吃灰并不等于学会~

视频

  • 2020年Python爬虫全套课程(学完可做项目)

    • https://www.bilibili.com/video/BV1Yh411o7Sz

  • Python爬虫编程基础5天速成(2021全新合集)Python入门+数据分析

    • https://www.bilibili.com/video/BV12E411A7ZQ

  • 2021年最新Python爬虫教程+实战项目案例(最新录制)

    • https://www.bilibili.com/video/BV1i54y1h75W

网盘资料

  • 《Python 网络爬虫实战》

    • https://pan.baidu.com/s/1ZZ1G047X_gsd3Gq7boHKcw 提取码: h5fx

  • 《Python 网络数据采集》

    • 链接: https://pan.baidu.com/s/1yMguYZ61GaXcadYQ9_FpQA 提取码: vq8y

  • Python 分布式爬虫

    • 链接: https://pan.baidu.com/s/1EY_n6FTnzkA7ahHstUp2oQ 提取码: 73s8

在线网站

  • 廖雪峰官网 Python教程

    • https://www.liaoxuefeng.com/wiki/1016959663602400

  • 莫凡 Python

    • https://mofanpy.com/

相关法律法规

  • 遵守 Robots

  • 控制访问速率

  • 敏感信息不碰触

  • 国家安全大于天

  • 获取的数据不进行非法盈利

  • 其他违反法律法规的动作

基本上做到以上几点,我们的爬虫就是安全的,不要过度妖魔化爬虫,当然网络更不是法外之地,要做一个合格的遵纪守法好公民!

 关于Python技术储备

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

在这里插入图片描述

二、Python必备开发工具

三、Python视频合集

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

四、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

五、Python练习题

检查学习结果。

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

 最后祝大家天天进步!!

上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值