Python：使用readability-lxml 提取网页标题和主体内容

最新推荐文章于 2024-07-04 14:49:13 发布

彭世瑜

最新推荐文章于 2024-07-04 14:49:13 发布

阅读量3.9k

点赞数

分类专栏： Python

本文为博主原创文章，欢迎转载，请注明出处

本文链接：https://blog.csdn.net/mouday/article/details/94380822

版权

Python 专栏收录该内容

614 篇文章

订阅专栏

本文介绍如何使用readability-lxml库从指定URL中提取网页的标题和主要内容。通过Python的requests库获取网页内容，然后利用readability-lxml解析并提取关键信息。实测表明，此方法对大部分网页有效，但对某些特定网站可能提取不准确。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

github: https://github.com/buriy/python-readability
pypi: https://pypi.org/project/readability-lxml/

安装

$ pip install readability-lxml

代码示例

# -*- coding: utf-8 -*-

from readability import Document
import requests

url = "https://blog.csdn.net/mouday/article/details/94021769"
response = requests.get(url)
response.encoding = "utf-8"

doc = Document(response.text)

print(doc.title())     # 标题
print(doc.summary())   # 主体内容