Python解析HTML定位元素（内容）HTMLParser demo

最新推荐文章于 2024-07-18 14:00:00 发布

shijiahang

最新推荐文章于 2024-07-18 14:00:00 发布

阅读量1.7k

点赞数 2

分类专栏： Python 文章标签： Python HTMLParser HTML

本文链接：https://blog.csdn.net/qq_42184799/article/details/86085969

版权

本文介绍如何利用Python的HTMLParser库从复杂的HTML文件中定位并提取所需数据。通过内容匹配，循环遍历及条件判断，将目标数据存入列表。

摘要由CSDN通过智能技术生成

前情提要：手上有个报告HTML，要抓取其中的数据内容。HTML文件内容较多，相同标签更多，不能更改。所以，选择按内容定位，套用循环和判断，将需要的数据放入列表list里。
代码呈现：

from HTMLParser import HTMLParser
import HTMLParser

class TitleParser(HTMLParser.HTMLParser):
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)
        self.handledtags = ['title','body']
        self.processing = None
        self.data = []
 
    def handle_starttag(self,tag,attrs):
        if tag in self.handledtags:
            self.processing = tag
 
    def handle_data(self,data):
        if self.processing:
            self.data.append(data)
 
    def handle_endtag(self,tag):
        if tag == self.processing:
            self.processing = None
 
if __name__ == '__main__':
    fd = open('index.html')
    tp = TitleParser()
    tp.feed(fd.read())
    a =['none']
    for each in tp.data: