目标:统计一本书中的词汇量
打开Alice in wonderland.txt文件。将内容打散为单词列表。
去掉单词列表中的重复单词。
统计该列表长度,将该列表存储为文件。
import re
word_bank = []
try:
with open('doc/Alice in wonderland.txt','r') as f:
content = f.read().lower()
content_clean = re.sub('[,.!:?\"();\[\]\-*]','',content)#去掉标点符号
words = content_clean.split()#把长字符串分割为单词列表
print(len(words))
word_bank = list(set(words))#去掉重复元素
word_bank.sort()#排序
print(len(word_bank))
with open('doc\word_of_Alice_in_wonderland.txt','w') as newfile:
for word in word_bank:
newfile.write(f'{word}\n')
print('finish:)')
except FileNotFoundError:
print('Not found.')