Python:使用readability-lxml 提取网页标题和主体内容

本文介绍如何使用readability-lxml库从指定URL中提取网页的标题和主要内容。通过Python的requests库获取网页内容,然后利用readability-lxml解析并提取关键信息。实测表明,此方法对大部分网页有效,但对某些特定网站可能提取不准确。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

github: https://github.com/buriy/python-readability
pypi: https://pypi.org/project/readability-lxml/

安装

$ pip install readability-lxml

代码示例

# -*- coding: utf-8 -*-

from readability import Document
import requests

url = "https://blog.csdn.net/mouday/article/details/94021769"
response = requests.get(url)
response.encoding = "utf-8"

doc = Document(response.text)

print(doc.title())     # 标题
print(doc.summary())   # 主体内容

尝试过几个网页后,发现部分网页可以正常提取主体内容,有些网站提取不正确

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值