背景:
需要解析html文件,获取需要的内容
语言:python
过程:
1.百度了一波,知道可以用HTMLParser这个库来做
2.坦白说,百度的各种写法不是很理解,因此直接查看了官网,链接附上:
https://docs.python.org/2/library/htmlparser.html
3.豁然开朗,开始写,导包、定义类、重写方法、调用·····然后就报错了,(贴上超简单的代码)
# -- coding: utf-8 --
from HTMLParser import HTMLParser
class MyParse(HTMLParser):
def __init__(self):
HTMLParser.__init__(self)
def handle_starttag(self, tag, attrs):
print("Encountered a start tag:", tag)
def handle_data(self, data):
pass
if __name__ == "__main__":
parse = MyParse()
content = ""
with open("content.html", "r", encoding="utf-8") as htmlfile:
content = htmlfi