python爬虫html、parser_python爬虫之HTMLParser讲解

最新推荐文章于 2021-06-04 04:41:29 发布

weixin_39893042

最新推荐文章于 2021-06-04 04:41:29 发布

阅读量108

点赞数

文章标签： python爬虫html、parser

本文链接：https://blog.csdn.net/weixin_39893042/article/details/113672568

版权

HTMLParser

需要手动下载markupbase.py放到libs里每读到一个标签处理一下

from HTMLParser import HTMLParser

# markupbase

class MyParser(HTMLParser):

def handle_decl(self, decl):

HTMLParser.handle_decl(self, decl)

print('decl %s' % decl)

def handle_starttag(self, tag, attrs):

HTMLParser.handle_starttag(self, tag, attrs)

print('')

def handle_endtag(self, tag):

HTMLParser.handle_endtag(self, tag)

print('')

def handle_data(self, data):

HTMLParser.handle_data(self, data)

print('data %s' % data)

def handle_startendtag(self, tag, attrs):

HTMLParser.handle_startendtag(self, tag, attrs)

def handle_comment(self, data):

HTMLParser.handle_comment(self, data)

print('data %s' % data)

def close(self):

HTMLParser.close(self)

print('Close')

demo = MyParser()

demo.feed(open('test.html').read())

demo.close()

希望与广大网友互动？？

点此进行留言吧！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注