def getwords(txt):
#去除所有的标记
txt = re.compile(r'<[^>]+>').sub('',html)
#利用所有非字母字符拆分单词
words = re.compile(r'[^A-Z^a-z]+').split(txt)
#转化为小写形式
return [word.lower() for word in words if word !='']
def getwords(txt):
#去除所有的标记
txt = re.compile(r'<[^>]+>').sub('',html)
#利用所有非字母字符拆分单词
words = re.compile(r'[^A-Z^a-z]+').split(txt)
#转化为小写形式
return [word.lower() for word in words if word !='']