Python爬虫学习笔记与实战汇总

这是一份基于Python的爬虫学习笔记,涵盖了从urllib基础到selenium的浏览器控制,包括正则表达式、BeautifulSoup、XPath、JsonPath等解析技术。作者通过实践b站的Python爬虫教程,并对其进行修正和扩展,提供了多个实战项目的源码,如智联招聘爬虫、视频爬取等,同时记录了遇到的问题和解决方案。更新日志详细,适合Python爬虫初学者。
摘要由CSDN通过智能技术生成

pythonCrawler

Notice

  1. exe_file 是本程序爬取的附录,全部测试、实战读写路径全部指向exe_file
  2. 本爬虫笔记基于b站 Python爬虫从入门到高级实战【92集】千锋Python高级教程
  3. 在该教程的基础上对教程中的思路进行实践,对教程出现的错误进行修正,并且另外扩展,并非教程源码照搬
  4. 由于时间有限,笔记与代码都位于.py文件中,以注释及代码形式存在,对学习过程中会出现的bug以及难点进行分析
  5. 由于作者能力有限以及爬虫技术迭代速度快,代码可能会存在bug,如有此情况,欢迎联系我更正或者pull request
  6. 更新日志的正确打开方式:
    • 数字代表每一章,每个数字的第一个py文件是基础知识讲解及简单实践
    • x.x形式的py文件一般是实战内容
    • 例如6.基于xpath…是基础知识,那么6.1就是项目实战内容
    • 所有的py文件都会有思路、踩坑以及知识点的介绍
    • 人性化设置,md文件的更新日志附属笔记的超链接跳转
  7. 如果笔记对您有用,麻烦Star谢谢

Update log

  1. 2019/03-2019/03/12

  2. 2019/04-

  3. 2019/07/10

  4. 2019/07/11

  5. 2019/07/15

    • 8.基于jsonpath的json文件解析方法
      • 实例:智联招聘,填补之前智联爬虫采用正则表达式解析json文件的繁琐方法
      • b站教程以爬取淘宝评论为例,但现淘宝系统过于难爬,此处留坑
  6. 2019/07/16

    • 谷歌浏览器驱动,适配谷歌75版本—在exeFile目录下
  7. 2019/07/17

  8. 2019/07/19

  9. 2019/07/20

    • 告知:
      • 为方便实例的各种测试文件的查找,在第10章包括以后,每章的测试文件保存在exe_file/x/下
      • x为对应章节,例如第10章,则位于exe_file/10/
    • 10.Requests库的基本用法
      • 实例:百度搜索,必应翻译,登陆人人网为例介绍post、cookie、get的用法
      • 代理使用
    • 10.1.Requests库实战
    • 11.验证码登陆方式
      • 实例:利用返回验证码到本地的方法登陆古诗文网
      • 运用:Requests库(创建会话用于支持cookie),美味汤(beautifulSoup)
  10. 2019/07/21-2019/07/26

  11. 2019/07/28

    • 12.视频爬取
      • 基于xpath, json, chromeDrive-headless的视频爬取方案
  12. 2019/07/29-2019/07/31

  13. 2019/03-2019/05


Contributing

如果你对这个项目感兴趣,非常乐意你可以将.py文件的笔记和代码进行格式加工

[版权声明]笔记内容是我原创并且开源到github上的,所有内容仅限于学习,不作商用,欢迎star/download/fork,但务必遵守相关开源协议进行使用,原创不易,请勿copy。在实践时遵守爬虫协议,目的只是为了更好的掌握爬虫知识,如果有所影响,请联系我删除,谢谢!


About Me

[一直在路上]由于现在没太多精力更博了,但是我把做的东西全都放在我的github,后面会往JAVA后台方向走,现在学了用markdown写文档,后续有什么干货会同步到这里的
[留下我的github]-ZhuoZhuoCrayon

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值