import sys
import os
import os.path
from html.parser import HTMLParser
#定义HTMLParser的子类,用以复写HTMLParser中的方法
class MyHTMLParser(HTMLParser):
#构造方法,定义data数组用来存储html中的数据
def __init__(self):
HTMLParser.__init__(self)
self.data = ""
self.flag = False
#self.index = 0
#覆盖starttag方法,可以进行一些打印操作
def handle_starttag(self, tag, attrs):
#pass
#print("遇到起始标签:{} 开始处理:{}".format(tag, tag))
#if tag == "tr":
# self.index = 0
if tag == "div":
for k,v in attrs:#遍历div的所有属性以及其值
if k == "class" and v == "cell":#确定进入了
#self.index = self.index + 1
self.flag = True
self.data = self.data + """
return
#覆盖endtag方法
def handle_endtag(self, tag):