python解析html tag

最新推荐文章于 2023-02-28 20:33:32 发布

叶玄青

最新推荐文章于 2023-02-28 20:33:32 发布

阅读量1.7k

点赞数

本文链接：https://blog.csdn.net/abcamus/article/details/52924355

版权

Python 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

有时候网页上信息太多，一方面用肉眼看容易出错，另一方面点击了网页的链接之后，原来页面的信息就被刷新了，这时候如果能通过程序自动的分析网页上的信息就好了，python的HTMLParser能够很好的解决这个问题，当然它只是把内容抓取下来，具体分析还得看不同人的需求。

from HTMLParser import HTMLParser

class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.links = []

    def handle_starttag(self, tag, attrs):
        #print "hello"
        if tag == "a":
            if len(attrs) == 0:
                pass
            else:
                for (variable, value) in attrs:
                    if variable == "href":
                        self.links.append(value)

if __name__ == "__main__":
    html_code = """
    <a href="www.google.com">google.com</a>
    <A Href="www.sina.com.cn">Sina</a>
    """

    hp = MyHTMLParser()
    hp.feed(html_code)
    hp.close()
    print(hp.links)

首先自定义一个类MyHTMLParser，从HTMLParser继承，重载handle_starttag()方法，然后通过feed方法把html内容喂给MyHTMLParser对象，最后关闭就OK了。

在eshell中

$python htmlparser.py
['www.google.com', 'www.sina.com.cn']

叶玄青

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录