我对python完全陌生,我正试图解析一个HTML文档来删除标签,我只想保留我之前在电脑上下载的报纸网站的标题和正文。在
我正在使用文档中找到的类HTML解析器,但我不知道如何使用它,我对这种语言不太了解:(
这是我的代码:#importa la clase HTMLParser
from html.parser import HTMLParser
class HTMLCleaner(HTMLParser):
container = ""
def handle_data(self, data):
if (data == '\n'):
pass
elif (data == " "):
pass
else:
self.container += data
return self.container
parser = HTMLCleaner()
#se va a abrir un fichero para parsearlo
archivo = open("C://Users//jotab//OneDrive//Documentos//Git//SRI//SRI_PR0//coleccionESuja2019//es_26142.html", "r", encoding="utf8")
while True:
line = archivo.readline()
if line == "":
break
else:
parser.feed(line)
print(parser.container)
我这样做是因为在解析之后我得到了很多行“\n”和很多行“”。但是当我试图检查一行是否为空白时,即使两个变量在调试器上出现完全相同,它也会返回false。在
我不知道为什么会这样,但是如果有人能帮我解析这个,那就太好了