第11章 案例研究:文本统计
计算并打印有关文本文件内容的统计数据:包含多少个字符、行和单词,以及出现最多的10个单词,并依此排列出。
#先定义一个规整文本字符的函数
def normalize(s):
keep={'a','b','c','d','e','f','g','h','i','j','k','l',
'm','n','o','p','q','r','s','t','u','v','w','x',
'y','z',' ','-',"'"}
result=""
for c in s.lower():
if c in keep:
result+=c
return result
#接受一个字符串s并生成一个字典,该字典的键为s中的单词,值为对应单词出现的次数
def make_freq_dict(s):
s=normalize(s)
words=s.split()
d={}
for w in words:
if w in d:
d[w]+=1
else:
d[w]=1
return d
def print_file_stats(fname):
s=open(fname,'r').read()
#在规整字符串前先统计字符数量
num_chars=len(s)
#在规整字符串前先统计行数
num_lines=s.count('\n')
d=make_freq_dict(s)
#统计单词数量
num_words=sum(d[w] for w in d)
#创建一个列表,元素为单词及对应出现次数组成的元组
lst=[(d[w],w) for w in d]
lst.sort()
lst.reverse()
num_words0=len(normalize(s).split())
print("The file '%s' has: "% fname)
print("%s characters"% num_chars)
print("%s lines"% num_lines)
print("%s words"% num_words)
print("%s words"% num_words0)
print("\nThe top 10 most frequent words are:")
i=1
for count,word in lst[:10]:
print("%2d. %2s %s"%(i,count,word))
i+=1
print_file_stats("3.txt")
练习:
1、修改函数printfilestats,使其也打印文件中不同单词总数。
#这里只需要通过求字典长度即可得知不同单词总数
print("There are %s different words."% len(d))
2、修改函数printfilestats,使其也打印文件中单词平均长度。
#计算单词平均长度
m=0
for w in d:
m+=len(w)*d[w]
average_length=m/num_words
3、罕用语是指文件中只出现过一次的单词,修改函数,打印罕用语总数。
#计算罕用语数量
n=0
for w in d:
if d[w]==1:
n+=1
4、一般文章里出现频率较高的都是如the、a、and这些功能词。可以创建一个排除词集合(stop_words),可以在其中设置单词。并在统计数据时,将该集合内的单词排除在外。
#建立一个排除词集合
stop_words={"the","a","i","of","is","in"}
#接受一个字符串s并生成一个字典,该字典的键为s中的单词,并且不在排除集合中
#值为对应单词出现的次数
def make_freq_dict1(s):
d0=make_freq_dict(s)
d={}
for w in d0:
if w in stop_words:
continue
else:
e={w:d0[w]}
d.update(e)
return d
5、函数printfilestats将一个文件名作为输入,并且将整个文件读入字符串中,当文件非常大时,会占用大量内存资源。请编写一个新的函数,逐行读取输入文件。
#先定义一个规整文本字符的函数
def normalize(s):
keep={'a','b','c','d','e','f','g','h','i','j','k','l',
'm','n','o','p','q','r','s','t','u','v','w','x',
'y','z',' ','-',"'"}
result=""
for c in s.lower():
if c in keep:
result+=c
return result
#采用逐行读取的方式统计
def print_file_stats(fname):
f=open(fname,'r')
#先定义并初始化统计数据
num_chars=0
num_words=0
num_lines=0
#逐行统计
for line in f:
num_chars+=len(line)
num_words+=len(normalize(line).split())
d=make_freq_dict(line,d)
num_lines+=1
print("The file '%s' has: "% fname)
print("%s characters"% num_chars)
print("%s lines"% num_lines)
print("%s words"% num_words)
print_file_stats("3.txt")