Python爬虫学习笔记与实战汇总

最新推荐文章于 2024-04-27 16:24:11 发布

Cai-Crayon

最新推荐文章于 2024-04-27 16:24:11 发布

阅读量743

点赞数 2

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SZU_Crayon/article/details/97960879

版权

Python 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

这是一份基于Python的爬虫学习笔记，涵盖了从urllib基础到selenium的浏览器控制，包括正则表达式、BeautifulSoup、XPath、JsonPath等解析技术。作者通过实践b站的Python爬虫教程，并对其进行修正和扩展，提供了多个实战项目的源码，如智联招聘爬虫、视频爬取等，同时记录了遇到的问题和解决方案。更新日志详细，适合Python爬虫初学者。

摘要由CSDN通过智能技术生成

pythonCrawler

Notice

exe_file 是本程序爬取的附录，全部测试、实战读写路径全部指向exe_file
本爬虫笔记基于b站 Python爬虫从入门到高级实战【92集】千锋Python高级教程
在该教程的基础上对教程中的思路进行实践，对教程出现的错误进行修正，并且另外扩展，并非教程源码照搬
由于时间有限，笔记与代码都位于.py文件中，以注释及代码形式存在，对学习过程中会出现的bug以及难点进行分析
由于作者能力有限以及爬虫技术迭代速度快，代码可能会存在bug，如有此情况，欢迎联系我更正或者pull request
更新日志的正确打开方式：
- 数字代表每一章，每个数字的第一个py文件是基础知识讲解及简单实践
- x.x形式的py文件一般是实战内容
- 例如6.基于xpath…是基础知识，那么6.1就是项目实战内容
- 所有的py文件都会有思路、踩坑以及知识点的介绍
- 人性化设置，md文件的更新日志附属笔记的超链接跳转
如果笔记对您有用，麻烦Star谢谢

Update log

2019/03-2019/03/12
2019/04-
- 项目实战：智联招聘爬虫-通用版：目前已爬取2019年第一季度IT领域招聘信息数据集
  - urllib, BeautifulSoup, 正则表达式, 多线程爬取, json获取, csv文件读写
2019/07/10
- 6.基于xpath的html页面信息提取
  - 实例：段子网爬取
2019/07/11
- 6.1.读取文件中的列表格式
  - 实例：文本文件中对象的读取
- 7.基于图片懒加载技术的图片下载
2019/07/15
- 8.基于jsonpath的json文件解析方法
  - 实例：智联招聘，填补之前智联爬虫采用正则表达式解析json文件的繁琐方法
  - b站教程以爬取淘宝评论为例，但现淘宝系统过于难爬，此处留坑
2019/07/16
- 谷歌浏览器驱动，适配谷歌75版本—在exeFile目录下
2019/07/17
- 9.基于selenium的浏览器控制访问
  - 实例：百度关键字搜索
2019/07/19
- 9.1.基于Chrome无界面模式浏览，图片懒加载的特点，异步加载的解决方法
  - 实例1：豆瓣电影下拉滚动条，懒加载变化解析
  - 实例2：百度图片搜索，无界面模式实践
2019/07/20
- 告知：
  - 为方便实例的各种测试文件的查找，在第10章包括以后，每章的测试文件保存在exe_file/x/下
  - x为对应章节，例如第10章，则位于exe_file/10/
- 10.Requests库的基本用法
  - 实例：百度搜索，必应翻译，登陆人人网为例介绍post、cookie、get的用法
  - 代理使用
- 10.1.Requests库实战
  - 实例：爬取深圳所有公交路线
  - 运用：json文件读写、Requests库及xpath解析
  - 数据集：深圳公交线路json文件
- 11.验证码登陆方式
  - 实例：利用返回验证码到本地的方法登陆古诗文网
  - 运用：Requests库（创建会话用于支持cookie），美味汤(beautifulSoup)
2019/07/21-2019/07/26
- 11.1pytesser介绍
  - 介绍了pytesser库以及PIL库的基本使用
- 11.2jTessBoxEditor-tesseract字库训练模式
  - 验证码测试脚本
- 重点：tesseract训练字库详解
  - 通过建立特征字符库，逐层加入识别错误的验证码进行补充训练，可以在三次扩充样本训练后达到90%以上识别率
2019/07/28
- 12.视频爬取
  - 基于xpath, json, chromeDrive-headless的视频爬取方案
2019/07/29-2019/07/31
- 13.多线程基础汇总
- 13.1多线程的面向对象构造形式
- 13.2队列的基本Queue的基本操作
- 13.3多线程爬取深圳公交线路
  - 基于10.1的程序进行多线程重构
  - 多线程爬取速度提升至500%
2019/03-2019/05
- 实战：58同城租房价格爬取
  - 涉及反爬策略，关于编码转化的技巧
- 实战：中国大学排名爬取
  - 美味汤、requests库的使用
- 实战：美桌网图片爬取实例4则
  - 入门级别
  - 实践多线程、美味汤、requests库

Contributing

如果你对这个项目感兴趣，非常乐意你可以将.py文件的笔记和代码进行格式加工

[版权声明]笔记内容是我原创并且开源到github上的，所有内容仅限于学习，不作商用，欢迎star/download/fork，但务必遵守相关开源协议进行使用，原创不易，请勿copy。在实践时遵守爬虫协议，目的只是为了更好的掌握爬虫知识，如果有所影响，请联系我删除，谢谢！

About Me

[一直在路上]由于现在没太多精力更博了，但是我把做的东西全都放在我的github，后面会往JAVA后台方向走，现在学了用markdown写文档，后续有什么干货会同步到这里的
[留下我的github]-ZhuoZhuoCrayon

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。