python做html文档_用python解析HTML文档

最新推荐文章于 2023-02-19 23:21:33 发布

鳗鱼神君

最新推荐文章于 2023-02-19 23:21:33 发布

阅读量161

点赞数

文章标签： python做html文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33365214/article/details/113504867

版权

博主正在尝试使用Python的HTMLParser库解析HTML文档，目标是提取下载的报纸网站的标题和正文。目前遇到的问题是处理数据时无法有效过滤掉空行。代码中定义了一个HTMLCleaner类，并尝试在读取文件时逐行喂给解析器，但判断空行的条件似乎不正确，导致空行未被正确处理。

摘要由CSDN通过智能技术生成

我对python完全陌生，我正试图解析一个HTML文档来删除标签，我只想保留我之前在电脑上下载的报纸网站的标题和正文。在

我正在使用文档中找到的类HTML解析器，但我不知道如何使用它，我对这种语言不太了解：(

这是我的代码：#importa la clase HTMLParser

from html.parser import HTMLParser

class HTMLCleaner(HTMLParser):

container = ""

def handle_data(self, data):

if (data == '\n'):

pass

elif (data == " "):

pass

else:

self.container += data

return self.container

parser = HTMLCleaner()

#se va a abrir un fichero para parsearlo

archivo = open("C://Users//jotab//OneDrive//Documentos//Git//SRI//SRI_PR0//coleccionESuja2019//es_26142.html", "r", encoding="utf8")

while True:

line = archivo.readline()

if line == "":

break

else:

parser.feed(line)

print(parser.container)

我这样做是因为在解析之后我得到了很多行“\n”和很多行“”。但是当我试图检查一行是否为空白时，即使两个变量在调试器上出现完全相同，它也会返回false。在

我不知道为什么会这样，但是如果有人能帮我解析这个，那就太好了

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。