Python学习者贡献的笔记 | 40多个实战案例，1万多行代码

最新推荐文章于 2024-06-26 13:50:07 发布

简说Python

最新推荐文章于 2024-06-26 13:50:07 发布

阅读量483

点赞数

点击“简说Python”，选择“置顶/星标公众号”

福利干货，第一时间送达！

本文授权转载自不缩进对齐的渣男，禁二次转载

阅读文本大概需要 6 分钟。

今天给大家分享一个Python爬虫学习的GitHub仓库，仓库名称是：pythonCrawler,仓库作者是我的一个读者，前天找我投的稿，这两天在武汉参加比赛，昨天晚上才注意到，看了文章内容觉得特别震撼，他写的这个GitHub仓库，花了四个多月时间，分享了40多个Python爬虫实战项目，1万多行代码，另外还有很多注释，该读者还特别在注释中加入了他学习过程中参考的资料和博文，方便阅读者学习，所以我立即答应帮他推，也就有了这篇推文。

作者初心： “希望能帮到大家吧，自己学的时候踩了不少坑，全部记在里面了”。

作者想法： “疯狂屯技术栈”

作者原标题是：Python爬虫学习之路

具体项目简介

pythonCrawler

一、Notice（须知事项）

项目地址：https://github.com/ZhuoZhuoCrayon/pythonCrawler

（请复制粘贴到浏览器进行访问）

exe_file 是本程序爬取的附录，全部测试、实战读写路径全部指向exe_file

由于时间有限，笔记与代码都位于.py文件中，以注释及代码形式存在，对学习过程中会出现的bug以及难点进行分析

由于作者能力有限以及爬虫技术迭代速度快，代码可能会存在bug，如有此情况，欢迎联系我更正或者pull request

更新日志的正确打开方式：

数字代表每一章，每个数字的第一个py文件是基础知识讲解及简单实践

x.x形式的py文件一般是实战内容

例如6.基于xpath…是基础知识，那么6.1就是项目实战内容

所有的py文件都会有思路、踩坑以及知识点的介绍

人性化设置，md文件的更新日志附属笔记的超链接跳转

如果笔记对您有用，麻烦Star谢谢

二、Update log（项目更新日志）

页面截图

2019/03-2019/03/12

1.urllib基础

2.利用ajax的特点构建post请求，及对url异常的处理实例：

豆瓣，kfc餐厅，百度贴吧的页面爬取

3.以百度翻译为例介绍fiddler中json包的解析

4.Handler处理器的应用：

设置ip及cookieJar，人人网模拟登陆

5.1.利用正则表达式提取糗图网页面信息

5.2.正则爬取励志网并建立文章集合页面

2019/04-

urllib, BeautifulSoup, 正则表达式, 多线程爬取, json获取, csv文件读写

项目实战：

智联招聘爬虫-通用版：

目前已爬取2019年第一季度IT领域招聘信息数据集

2019/07/10

实例：

段子网爬取

6.基于xpath的html页面信息提取

2019/07/11

实例：

文本文件中对象的读取

6.1.读取文件中的列表格式

7.基于图片懒加载技术的图片下载

2019/07/15

实例：

智联招聘，填补之前智联爬虫采用正则表达式解析json文件的繁琐方法

b站教程以爬取淘宝评论为例，但现淘宝系统过于难爬，此处留坑

8.基于jsonpath的json文件解析方法

2019/07/16

谷歌浏览器驱动，适配谷歌75版本—-在exeFile目录下

2019/07/17

实例：

百度关键字搜索

9.基于selenium的浏览器控制访问

2019/07/19

实例1：

豆瓣电影下拉滚动条，懒加载变化解析

实例2：

百度图片搜索，无界面模式实践

9.1.基于Chrome无界面模式浏览，图片懒加载的特点，异步加载的解决方法

2019/07/20

实例：

利用返回验证码到本地的方法登陆古诗文网

运用：

Requests库（创建会话用于支持cookie），美味汤(beautifulSoup)

实例：

爬取深圳所有公交路线

运用：

json文件读写、Requests库及xpath解析

数据集：

深圳公交线路json文件

实例：

百度搜索，必应翻译，登陆人人网为例介绍post、cookie、get的用法

代理使用

为方便实例的各种测试文件的查找，在第10章包括以后，每章的测试文件保存在exe_file/x/下

x为对应章节，例如第10章，则位于exe_file/10/

告知：

10.Requests库的基本用法

10.1.Requests库实战

11.验证码登陆方式

2019/07/21-2019/07/26

通过建立特征字符库，逐层加入识别错误的验证码进行补充训练，可以在三次扩充样本训练后达到90%以上识别率

验证码测试脚本

介绍了pytesser库以及PIL库的基本使用

11.1pytesser介绍

11.2jTessBoxEditor-tesseract字库训练模式

重点：tesseract训练字库详解

2019/07/28

基于xpath, json, chromeDrive-headless的视频爬取方案

12.视频爬取

2019/07/29-2019/07/31

基于10.1的程序进行多线程重构

多线程爬取速度提升至500%

13.多线程基础汇总

13.1多线程的面向对象构造形式

13.2队列的基本Queue的基本操作

13.3多线程爬取深圳公交线路

2019/03-2019/05

入门级别

实践多线程、美味汤、requests库

美味汤、requests库的使用

涉及反爬策略，关于编码转化的技巧

实战：

58同城租房价格爬取

实战：

中国大学排名爬取

实战：

美桌网图片爬取实例4则

三、Contributingm（贡献）

[版权声明]笔记内容是我原创并且开源到github上的，所有内容仅限于学习，不作商用，欢迎star/download/fork，但务必遵守相关开源协议进行使用，原创不易，请勿copy。在实践时遵守爬虫协议，目的只是为了更好的掌握爬虫知识，如果有所影响，请联系我删除，谢谢！