一份Python爬虫实战教程清单

最新推荐文章于 2022-07-12 15:26:28 发布

masonsxu

最新推荐文章于 2022-07-12 15:26:28 发布

阅读量950

点赞数 2

分类专栏：学习笔记文章标签： python selenium 大数据爬虫人工智能

本文链接：https://blog.csdn.net/one_a_xiaobai/article/details/106956803

版权

6 篇文章 0 订阅

订阅专栏

本学期的所有课程任务已经完全结束了，有时间来整理一份关于 Python爬虫 的实战教程。

本教程都没有大篇幅的介绍到底该如何去完成一份爬虫代码，但是会分享我在学习爬虫的过程中遇到的问题和当时的所查阅到的一些与之相关的博客的解决方法。

Python 网络爬虫实战：爬取 B站《全职高手》20万条评论数据

python爬虫遇到验证码的处理方法（以爬取中国执行信息公开网为例）

目的
- 获取需要爬取页面的网址，并且对网页内容进行分析。（主要就源代码讨论，如果我们需要的内容没有在源代码出现，则需要进行抓包分析）
- 找到我们需要爬取的内容时我们就要用正则表达式、beautifulsoup或者是xpath进行切割我们需要的字段。
- 将爬取到的内容进行存储。
博客地址
- https://blog.csdn.net/qq_39620871/article/details/80732521

python 验证码识别之pytesser以及image学习记录

在爬虫中避免不了要使用正则表达式来校验或者获取我们所需要的数据，所以我们需要对正则表达式有一个清晰的认知，这里我介绍一个非常详细的正则表达式的使用介绍——史上最全常用正则表达式大全

目的
- 很多不太懂正则的朋友，在遇到需要用正则校验数据时，往往是在网上去找很久，结果找来的还是不很符合要求。所以我最近把开发中常用的一些正则表达式整理了一下，在这里分享一下。给自己留个底，也给朋友们做个参考。
博客地址
- https://www.cnblogs.com/fozero/p/7868687.html

爬虫——selenium

目的
- 因为现在有一些大型网站的页面加载方式已经不是静态进行加载的，所以我们需要使用一种新的方式来获取网页源代码，这里的我们使用selenium来解决但绝大数的网站，来获取他们的网页源代码，才能继续后面的网页解析来爬取我们需要的数据。
博客地址
- https://www.cnblogs.com/zivli/p/10976530.html
需要注意的点
- 因为 selenium 是一个自动化测试工具，所以要根据我们所使用的浏览器来安装相应的浏览器驱动程序关于驱动安装这里我会拿 Chrome 浏览器进行举例
- 参考博客：UI 自动化(selenium+python)之浏览器驱动 chromedriver 安装和配置
  - 博客地址：https://www.cnblogs.com/balllyh/p/12191375.html