Python学习者贡献的笔记 | 40多个实战案例,1万多行代码

点击“简说Python”,选择“置顶/星标公众号”
福利干货,第一时间送达!
640?
本文授权转载自不缩进对齐的渣男,禁二次转载
阅读文本大概需要 6 分钟。

今天给大家分享一个Python爬虫学习的GitHub仓库,仓库名称是:pythonCrawler,仓库作者是我的一个读者,前天找我投的稿,这两天在武汉参加比赛,昨天晚上才注意到,看了文章内容觉得特别震撼,他写的这个GitHub仓库,花了四个多月时间,分享了40多个Python爬虫实战项目,1万多行代码,另外还有很多注释,该读者还特别在注释中加入了他学习过程中参考的资料和博文,方便阅读者学习,所以我立即答应帮他推,也就有了这篇推文。


作者初心: “希望能帮到大家吧,自己学的时候踩了不少坑,全部记在里面了”。
作者想法: “疯狂屯技术栈”


640?wx_fmt=jpeg
作者原标题是:Python爬虫学习之路



具体项目简介

pythonCrawler

一 、Notice(须知事项)

  1. 项目地址https://github.com/ZhuoZhuoCrayon/pythonCrawler
    (请复制粘贴到浏览器进行访问)
  2. exe_file 是本程序爬取的附录,全部测试、实战读写路径全部指向exe_file
  3. 由于时间有限,笔记与代码都位于.py文件中,以注释及代码形式存在,对学习过程中会出现的bug以及难点进行分析
  4. 由于作者能力有限以及爬虫技术迭代速度快,代码可能会存在bug,如有此情况,欢迎联系我更正或者pull request
  5. 更新日志的正确打开方式:
  • 数字代表每一章,每个数字的第一个py文件是基础知识讲解及简单实践
  • x.x形式的py文件一般是实战内容
  • 例如6.基于xpath…是基础知识,那么6.1就是项目实战内容
  • 所有的py文件都会有思路、踩坑以及知识点的介绍
  • 人性化设置,md文件的更新日志附属笔记的超链接跳转
如果笔记对您有用,麻烦Star谢谢


二 、Update log(项目更新日志)

640?wx_fmt=png

页面截图


  1. 2019/03-2019/03/12
  • 1.urllib基础
  • 2.利用ajax的特点构建post请求,及对url异常的处理实例:
    豆瓣,kfc餐厅,百度贴吧的页面爬取
  • 3.以百度翻译为例介绍fiddler中json包的解析
  • 4.Handler处理器的应用:
    设置ip及cookieJar,人人网模拟登陆
  • 5.1.利用正则表达式提取糗图网页面信息
  • 5.2.正则爬取励志网并建立文章集合页面
2019/04-
  • urllib, BeautifulSoup, 正则表达式, 多线程爬取, json获取, csv文件读写
  • 项目实战:
    智联招聘爬虫-通用版:
    目前已爬取2019年第一季度IT领域招聘信息数据集
2019/07/10
  • 实例:
    段子网爬取
  • 6.基于xpath的html页面信息提取
2019/07/11
  • 实例:
    文本文件中对象的读取
  • 6.1.读取文件中的列表格式
  • 7.基于图片懒加载技术的图片下载
2019/07/15
  • 实例:
    智联招聘,填补之前智联爬虫采用正则表达式解析json文件的繁琐方法
  • b站教程以爬取淘宝评论为例,但现淘宝系统过于难爬,此处留坑
  • 8.基于jsonpath的json文件解析方法
2019/07/16
  • 谷歌浏览器驱动,适配谷歌75版本—-在exeFile目录下
2019/07/17
  • 实例:
    百度关键字搜索
  • 9.基于selenium的浏览器控制访问
2019/07/19
  • 实例1:
    豆瓣电影下拉滚动条,懒加载变化解析
  • 实例2:
    百度图片搜索,无界面模式实践
  • 9.1.基于Chrome无界面模式浏览,图片懒加载的特点,异步加载的解决方法
2019/07/20
  • 实例:
    利用返回验证码到本地的方法登陆古诗文网
  • 运用:
    Requests库(创建会话用于支持cookie),美味汤(beautifulSoup)
  • 实例:
    爬取深圳所有公交路线
  • 运用:
    json文件读写、Requests库及xpath解析
  • 数据集:
    深圳公交线路json文件
  • 实例:
    百度搜索,必应翻译,登陆人人网为例介绍post、cookie、get的用法
  • 代理使用
  • 为方便实例的各种测试文件的查找,在第10章包括以后,每章的测试文件保存在exe_file/x/下
  • x为对应章节,例如第10章,则位于exe_file/10/
  • 告知:
  • 10.Requests库的基本用法
  • 10.1.Requests库实战
  • 11.验证码登陆方式
2019/07/21-2019/07/26
  • 通过建立特征字符库,逐层加入识别错误的验证码进行补充训练,可以在三次扩充样本训练后达到90%以上识别率
  • 验证码测试脚本
  • 介绍了pytesser库以及PIL库的基本使用
  • 11.1pytesser介绍
  • 11.2jTessBoxEditor-tesseract字库训练模式
  • 重点:tesseract训练字库详解
2019/07/28
  • 基于xpath, json, chromeDrive-headless的视频爬取方案
  • 12.视频爬取
2019/07/29-2019/07/31
  • 基于10.1的程序进行多线程重构
  • 多线程爬取速度提升至500%
  • 13.多线程基础汇总
  • 13.1多线程的面向对象构造形式
  • 13.2队列的基本Queue的基本操作
  • 13.3多线程爬取深圳公交线路
2019/03-2019/05
  • 入门级别
  • 实践多线程、美味汤、requests库
  • 美味汤、requests库的使用
  • 涉及反爬策略,关于编码转化的技巧
  • 实战:
    58同城租房价格爬取
  • 实战:
    中国大学排名爬取
  • 实战:
    美桌网图片爬取实例4则


三 、Contributingm(贡献)

[版权声明]笔记内容是我原创并且开源到github上的,所有内容仅限于学习,不作商用,欢迎star/download/fork,但务必遵守相关开源协议进行使用,原创不易,请勿copy。 在实践时遵守爬虫协议,目的只是为了更好的掌握爬虫知识,如果有所影响,请联系我删除,谢谢!


如果你觉得文章还不错,请大家点赞分享下。你的肯定是我最大的鼓励和支持。
仔细阅读下面四篇文章,2小时快速掌握Python基础知识要点

完整Python基础知识要点

我是老表,欢迎转发分享本文

公众号 简说Python 唯一小编:老表,目前已经建了四个Python学习交流群,一个Java学习交流群,一个考研学习交流群,欢迎大家扫下方二维码加管理员老表微信,备注:Python,Java,考研等,加入对应的学习交流群,和爱学习的小伙伴们一起进步,简说学习交流,期待你的加入。
管理员二维码:
640?wx_fmt=jpeg
有问题,找老表




 
              
640?wx_fmt=png
给个[在看],是对老表最大的支持!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值