python读取html文件中的内容并输出_使用python提取html文件中的特定数据的实现代码...

本文介绍了如何使用Python的SGMLParser类解析HTML文件,提取带有特定类名的内容。通过定义解析器类并覆盖相关处理函数,实现了从HTML的div标签内p标签中的数据。示例代码展示了如何处理'entry-content'类的div内的p标签数据,将其内容保存到列表中。
摘要由CSDN通过智能技术生成

例如 具有如下结构的html文件

感兴趣内容1

感兴趣内容2

……

感兴趣内容n

内容1

内容2

……

内容n

我们尝试获得'感兴趣内容'

对于文本内容,我们保存到IDList中。

可是如何标记我们遇到的文本是感兴趣的内容呢,也就是,处于

这里的内容

还有这里

……

以及这里的内容

思路如下

遇到

设置标记flag = True

遇到

后 设置标记flag = False

当flag 为True时遇到

设置标记getdata = True

遇到

且getdata = True,设置getdata = False

python为我们提供了SGMLParser类,SGMLParser 将 HTML 分析成 8 类数据[1],然后对每一类调用单独的方法:使用时只需继承SGMLParser 类,并编写页面信息的处理函数。

可用的处理函数如下:

开始标记 (Start tag)

是一个开始一个块的 HTML 标记,象 ,

, 或
 等,或是一个独一的标记,象 
或 等。当
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值