要统计单词数,第一个想到的当然是用正则表达式把整片文章捋一遍,但是发现个tricky的地方,像example@test.com这样的邮件地址,单纯地去掉中间的.和@这样的符号,会让单词拼接起来变成exampletestcom这样,统计的时候就变成一个单词了,所以折中的办法是去符号替换成空格,再按空格分割来读取字符串,再统计纯英文单词的数量就行了
import os, re
if __name__ == '__main__':
count = 0
with open('sample.txt', 'r', encoding