使用Requests和Beautiful Soup抓取网页内容

最新推荐文章于 2025-07-30 18:29:52 发布

原创

最新推荐文章于 2025-07-30 18:29:52 发布 · 1.7w 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了如何结合Requests和Beautiful Soup库从HTML页面中抓取和解析信息。通过示例，展示了如何选取特定元素，如查找id为'author'的元素，并获取其文本内容。此外，还给出了抓取古诗文网站上诗歌标题、朝代作者和内容的实际应用案例。

Beautiful Soup是抓取网页常用的一个模块，用于从HTML页面中提取信息，它显然比正则表达式好用很多。

简单示例

我们先来看下如何解析下面这个简单的HTML文件：

<!-- This is the example.html example file. -->
<html>
<head><title>The Website Title</title></head>
<body>
<p>Download my <strong>Python</strong> book from <a href="http://
inventwithpython.com">my website</a>.</p>
<p class="slogan">Learn Python the easy way!</p>
<p<