Python 爬虫_QuantumStack的博客-CSDN博客

Python 爬虫

关注

文章平均质量分 91

在这个专栏中，我们将深入探索Python爬虫的世界，一步步带你掌握抓取网页数据的技巧和策略。Python作为编程新手的首选语言，其简洁明了的语法和强大的第三方库使其成为实现自动化网络数据采集的理想工具。本专栏适合对网络爬虫感兴趣的初学者和希望提升爬虫技能的开发者。

关注数：文章数：5 文章阅读量：7090 文章收藏量：127

作者: QuantumStack

这个作者很懒，什么都没留下…

展开

【Python 爬虫基础】正则表达式

计算机科学领域有个笑话：“如果你有一个问题打算用正则表达式来解决，那么就是两个问题了。然而，正则表达式（通常简写 regex）经常被嘲笑是一堆随机符号混杂在一起，看起来毫无意义。这种印象让人们对其避而远之，然后费尽心思写一堆复杂的查找和过滤函数，其实他们真正需要的就是一行正则表达式。其实正则表达式上手一点也不难，而且运行很快，通过一些简单的例子就可以轻松地学会。

原创 2024-04-13 19:36:40 · 643 阅读 · 1 评论
【Python 爬虫基础】标签解析树的导航

find_all 函数通过标签的名称和属性来查找标签。但是如果你需要通过标签在文档中的位置来查找标签，该怎么办？这就是导航树（navigating trees）的作用。现在我们用虚拟的作为要抓取的示例网页，演示 HTML 导航树的纵向和横向导航（如图）。

原创 2024-04-03 20:28:44 · 918 阅读 · 1 评论
【Python 爬虫基础】再端一碗 BeautifulSoup

在里，我们快速演示了 BeautifulSoup 的安装与运行过程，同时也实现了每次选择一个对象的解析方法。这一章将介绍通过属性查找标签的方法，标签组的使用。基本上，你遇到的每个网站都有层叠样式表（cascading style sheet, CSS）。虽然你可能会认为，专门为了让浏览器和人类可以理解网站内容而设计一个展现样式的层，是一件愚蠢的事，但是 CSS 的发明却是网络爬虫的福音。CSS 可以让 HTML 元素呈现出差异化，使那些具有完全相同修饰的元素呈现出不同的样式。

原创 2024-03-31 10:15:18 · 1685 阅读 · 1 评论
【Python 爬虫基础】BeautifulSoup

BeautifulSoup 尝试化平淡为神奇。它通过定位 HTML 标签来格式化和组织复杂的网页信息，用简单易用的 Python 对象为我们展现 XML 结构信息。

原创 2024-03-29 00:20:16 · 1987 阅读 · 1 评论
【Python 爬虫基础】初见 Python 网络爬虫

如果你上网的唯一方式就是用浏览器，那么你其实错过了很多种可能。虽然浏览器可以更方便地执行 Javascript、显示图片，并且可以以更适合人类阅读的形式展示数据，但是网络爬虫收集和处理大量数据的能力更为卓越。不像狭窄的显示器窗口一次只能让你看一个网页，网络爬虫可以让你一次查看几千甚至几百万个网页。

原创 2024-03-27 23:37:05 · 1858 阅读 · 0 评论

Python 爬虫

作者: QuantumStack

【Python 爬虫基础】正则表达式

【Python 爬虫基础】标签解析树的导航

【Python 爬虫基础】再端一碗 BeautifulSoup

【Python 爬虫基础】BeautifulSoup

【Python 爬虫基础】初见 Python 网络爬虫