一份Python爬虫实战教程清单
本学期的所有课程任务已经完全结束了,有时间来整理一份关于 Python爬虫
的实战教程。
本教程都没有大篇幅的介绍到底该如何去完成一份爬虫代码,但是会分享我在学习爬虫的过程中遇到的问题和当时的所查阅到的一些与之相关的博客的解决方法。
实战入门篇
Python 网络爬虫实战:爬取 B站《全职高手》20万条评论数据
-
目的:爬取 B 站(哔哩哔哩弹幕网 https://www.bilibili.com )视频评论数据。
-
博客地址:https://blog.csdn.net/wenxuhonghe/article/details/83791412
实战中遇到验证码的处理方法篇
python爬虫遇到验证码的处理方法(以爬取中国执行信息公开网为例)
-
目的
- 获取需要爬取页面的网址,并且对网页内容进行分析。(主要就源代码讨论,如果我们需要的内容没有在源代码出现,则需要进行抓包分析)
- 找到我们需要爬取的内容时我们就要用正则表达式、beautifulsoup或者是xpath进行切割我们需要的字段。
- 将爬取到的内容进行存储。
-
博客地址
python 验证码识别之pytesser以及image学习记录
- 目的
- 识别执行爬虫代码过程中的验证码
- 博客地址
实战解析网页之正则篇
在爬虫中避免不了要使用正则表达式来校验或者获取我们所需要的数据,所以我们需要对正则表达式有一个清晰的认知,这里我介绍一个非常详细的正则表达式的使用介绍——史上最全常用正则表达式大全
- 目的
- 很多不太懂正则的朋友,在遇到需要用正则校验数据时,往往是在网上去找很久,结果找来的还是不很符合要求。所以我最近把开发中常用的一些正则表达式整理了一下,在这里分享一下。给自己留个底,也给朋友们做个参考。
- 博客地址
实战之处理异步加载网页篇
爬虫——selenium
-
目的
- 因为现在有一些大型网站的页面加载方式已经不是静态进行加载的,所以我们需要使用一种新的方式来获取网页源代码,这里的我们使用selenium来解决但绝大数的网站,来获取他们的网页源代码,才能继续后面的网页解析来爬取我们需要的数据。
-
博客地址
-
需要注意的点
- 因为
selenium
是一个自动化测试工具,所以要根据我们所使用的浏览器来安装相应的浏览器驱动程序关于驱动安装这里我会拿Chrome
浏览器进行举例 - 参考博客:UI 自动化(selenium+python)之浏览器驱动 chromedriver 安装和配置
- 因为
实战之如何绕过淘宝等具备检测自动化测试工具的网站篇
别只用 Selenium,新神器 Pyppeteer 绕过淘宝更简单!
实战之爬取手机App篇
等到了完成过大量的爬虫项目的时候,足够理解了爬虫的实质的时候已经不仅仅爬取网页上的数据了,还可以进一步的完成关于应用程序类的数据爬取,因为我们浏览的所有内容都是靠数据来进行展现的,无论是网页、电脑程序还是手机程序,只要是我们能够看得到的信息都可以成为我们所要爬取的对象。
接下来我将拿手机上面抖音App来进行举例,如何获取抖音中的视频数据——使用python爬虫,批量爬取抖音App视频(requests+Fiddler+appium)
-
目的
- 抖音很火,使用python随机爬取抖音视频,并且无水印下载,人家都说天下没有爬不到的数据,so,决定试试水,纯属技术爱好,分享给大家。
-
博客地址
总结
以上就是我在学习爬虫过程中所遇到的一部分爬虫数据类型所查阅的一些比较优质的内容,结合一部分自己学到的知识可以真正实现的项目。
在这里分享给大家进行学习,希望能给大家带来帮助。