HTMLParser类中有针对HTML标签的相应的函数,通过自定义,重载类中的函数来处理一些标签,函数如下:
HTMLParser.anchor_bgn(href,
HTMLParser.anchor_end() #锚点标签结束的时候处理
HTMLParser.save_bgn():#开始在缓冲区中保存字符数据,通过save_end()检索存储的数据。save_bgn()/
HTMLParser.save_end():#结束缓冲字符数据,并返回自前调用save_bgn()保存所有数据。一个没有前面的调用save_bgn()调用此方法将引发TypeError异常。
HTMLParser.handle_image(source,
HTMLParser.reset()
HTMLParser.feed(data)
HTMLParser.close()
HTMLParser.getpos()
HTMLParser.get_starttag_text()
HTMLParser.handle_starttag(tag, attrs)
HTMLParser.handle_startendtag(tag, attrs)
HTMLParser.handle_endtag(tag)
HTMLParser.handle_data(data)
HTMLParser.handle_charref(name)
//-------------------------------------------------
引用于:http://www.cyrec.org/posts/python-HTMLParser-A-href