对于正则表达式 推荐看
https://wenku.baidu.com/view/343d85868762caaedd33d4b0.html?from=search
这是个很好的解说。
#coding: utf-8
import sys
import re # Python正则表达式的库函数
import collections # Python的容器
reload(sys)
sys.setdefaultencoding('utf8')
file_object = open('a.txt')
try:
all_the_text = file_object.read( )# 读取文件
str1 = re.sub('[^a-zA-Z]', ' ', all_the_text)# 把所有的非 a-z 和 A-Z 的字符替换成 空格
str2 = str(re.split(' ',str1))[1:-4].split(' ')# 从str1 中按照空格提取单词, 这里的 [1:-4] 应该??是提取分片的第一个。 分片的方式使用空格??
m = collections.Counter(str2)# 把提取到的放入到 计数器 容器里面
for i in range(len(m)):
a = list(m.elements())[i]+str(m[list(m.elements())[i]])+'\n'
# a 是一个list,从中提取 第 i 个元素, 末尾放回车 ????
f = file("b.txt", "a+")# 在文档后面追加字符串
f.write(a)
finally:
f.close()
file_object.close( )
本文档后面还会继续补充。