1. 获取小说文本 读取文件
# 获取小说文本
# 读取文件
fn = open("prepare\\红楼梦_曹雪芹.txt", encoding="utf-8")
string_data = fn.read() # 读出整个文件
fn.close() # 关闭文件
2.对文本进行处理
# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定义正则表达式匹配模式
txt = re.sub(pattern, '', string_data) # 将符合模式的字符去除
print('预处理完毕')
# 停词文档
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
return stopwords
stopwords = stopwordslist('D:\\Python studybag\\prepare\\tingyong.txt')
excludes = {'之','其','方','即','因','仍','故','尚','乃','呀','吗','咧','罢','咧','啊','罢','了','么',
'或', ' 亦', '于', ' 皆', '的', '着', '一' , '不', '把', '让','向', '往', '是' , '在', '别',
'好', '可', '便', '就',' 但','越','再','更', '比','很','偏',
'那里','如今','一个','我们','你们','起来','姑娘','这里','二人','说道',
'知道','如何','今日','什么','于是','还有','出来','他们','众人','奶奶',
'自己','一面','太太','只见','怎么','两个','没有','不是','不知','这个',
'听见','这样','进来','告诉','东西','咱们','就是','如此','回来','大家',
'只是','老爷','只得','丫头','这些','不敢','出去','所以','不过','姐姐',
'的话','不好','鸳鸯','一时','过来'