最近经常有小伙伴咨询,爬虫到底该怎么学,有什么爬虫学习路线可以参考下,萝卜作为非专业爬虫爱好者,今天就来分享下,对于我们平时的基础爬虫或者小规模爬虫,应该掌握哪些技能、需要如何学起!
当然了,由于个人水平有限,文章中不免有不准确的地方,欢迎斧正~
学习路线大纲
图片有点糊,没有办法,公众号不能上传原图,需要原图的小伙伴在文末获取
Python 基础
由于本篇主要介绍 Python 爬虫学习路线,所以对于 Python 基础知识,仅仅提取了最为基础的部分,应付基础爬虫完全够用了,当然,对于底层基础,肯定是掌握的越多、越牢固越好~
-
环境搭建
-
Python安装
-
开发工具 - PyCharm,VS Code
-
-
变量
-
定义变量
-
命名规则
-
基本数据类型
-
-
基本数据结构
-
字符串
-
列表
-
字典
-
集合
-
元组
-
-
流程控制
-
条件
-
循环
-
-
函数
-
调用函数
-
定义函数
-
函数参数
-
lambda 函数
-
-
面向对象编程
-
类和对象
-
访问限制
-
装饰器
-
数据采集与解析
-
HTTP 基本原理
-
URI 和 URL 统一资源定位符
-
HTTP&HTTPS 请求与响应
-
HTML 组成原理
-
-
WEB 基本原理
-
JavaScript&HTML&CSS
-
节点树与节点
-
Web 加载原理
-
静动态 Web 页面
-
-
Socket 库
-
基于 socket 协议的爬虫
-
-
Requests 库
-
requests 库的使用
-
cookie 与 session
-
模拟登录
-
请求头模拟
-
IP 代理
-
-
正则表达式
-
re 模块的使用
-
基本字符串、数字等匹配规则
-
贪婪与非贪婪匹配
-
-
Xpath
-
执行原理
-
节点操作
-
元素操作
-
多种采集方式
-
同步采集
-
requests
-
-
异步采集
-
aiohttp
-
aiofiles
-
-
Selenium
-
环境搭建 - webdriver
-
元素选择 - (id,css,class,xpath)
-
模拟登录
-
隐藏 selenium 特征
-
-
AJAX
-
Ajax 原理
-
Ajax 请求与响应解析
-
-
Pyppeteer
-
环境安装
-
模拟点击
-
执行 JS 代码
-
存储知识
-
本地文件
-
os 库
-
open 文件
-
读写 Excel
-
读写 CSV
-
-
MySQL
-
表结构设计
-
同步/异步写入 MySQL
-
-
Redis
-
读写操作
-
基本数据类型与选择
-
-
MongoDB
-
单一写入
-
批量写入
-
-
与 Pandas 结合
-
存储成 Pandas 数据结构
-
Pandas 基本操作
-
中间人代理
-
Charles
-
安装与配置
-
数据拦截
-
安卓模拟器
-
-
Mitmproxy
-
脚本编写
-
数据截取
-
代理响应
-
-
HttpCanary
-
基本使用
-
爬虫框架
-
Scrapy
-
环境搭建
-
组件拆解
-
通用爬虫
-
分布式爬虫 - (scrapy-redis 使用,scrapy-redis 调度器)
-
-
Crawley
-
Selenium
-
分布式部署
-
-
PySpider
反爬虫知识
-
信息校验型
-
模拟登录
-
Cookie 机制
-
用户代理
-
签名验证机制
-
header 机制
-
-
动态渲染型
-
页面异步加载
-
-
文本混淆型
-
图文混淆 - 关键信息以图片形式给出
-
字体反爬 - (反爬原理,编码破解)
-
-
特征识别型
-
访问频率限制 - (IP 代理池,搭建个人 IP 代理池)
-
Selenium 特征检测 - 隐藏 Selenium 特征
-
-
验证码
-
验证码原理
-
图文验证码
-
点选验证码
-
滑动验证码
-
其他变态验证码
-
-
JS 混淆
-
JS 逆向
-
多终端爬虫
-
WEB 采集
-
APP 采集
-
小程序采集
-
数据去重
-
断点采集
-
增量采集
以上就是整理的基础爬虫所需的学习路线,当然鉴于个人水平有限,难免有不足之处,还望不吝指教!
下面分享一些免费好用的学习资料,大家自选,还是那句话,资料在精不在多,在收藏夹里吃灰并不等于学会~
视频
-
2020年Python爬虫全套课程(学完可做项目)
-
https://www.bilibili.com/video/BV1Yh411o7Sz
-
-
Python爬虫编程基础5天速成(2021全新合集)Python入门+数据分析
-
https://www.bilibili.com/video/BV12E411A7ZQ
-
-
2021年最新Python爬虫教程+实战项目案例(最新录制)
-
https://www.bilibili.com/video/BV1i54y1h75W
-
网盘资料
-
《Python 网络爬虫实战》
-
https://pan.baidu.com/s/1ZZ1G047X_gsd3Gq7boHKcw 提取码: h5fx
-
-
《Python 网络数据采集》
-
链接: https://pan.baidu.com/s/1yMguYZ61GaXcadYQ9_FpQA 提取码: vq8y
-
-
Python 分布式爬虫
-
链接: https://pan.baidu.com/s/1EY_n6FTnzkA7ahHstUp2oQ 提取码: 73s8
-
在线网站
-
廖雪峰官网 Python教程
-
https://www.liaoxuefeng.com/wiki/1016959663602400
-
-
莫凡 Python
-
https://mofanpy.com/
-
相关法律法规
-
遵守 Robots
-
控制访问速率
-
敏感信息不碰触
-
国家安全大于天
-
获取的数据不进行非法盈利
-
其他违反法律法规的动作
基本上做到以上几点,我们的爬虫就是安全的,不要过度妖魔化爬虫,当然网络更不是法外之地,要做一个合格的遵纪守法好公民!
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
三、Python视频合集
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、Python练习题
检查学习结果。
六、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
最后祝大家天天进步!!
上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。