Python编程入门-第11章案例研究：文本统计

最新推荐文章于 2022-05-10 20:05:46 发布

wutong1024

最新推荐文章于 2022-05-10 20:05:46 发布

阅读量643

点赞数

分类专栏：学习笔记 python 文章标签： python

本文链接：https://blog.csdn.net/wutong1024/article/details/53150740

版权

python 同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

学习笔记

13 篇文章 1 订阅

订阅专栏

第11章案例研究：文本统计

计算并打印有关文本文件内容的统计数据：包含多少个字符、行和单词，以及出现最多的10个单词，并依此排列出。

#先定义一个规整文本字符的函数
def normalize(s):
    keep={'a','b','c','d','e','f','g','h','i','j','k','l',
          'm','n','o','p','q','r','s','t','u','v','w','x',
          'y','z',' ','-',"'"}
    result=""
    for c in s.lower():
        if c in keep:
            result+=c
    return result

#接受一个字符串s并生成一个字典，该字典的键为s中的单词，值为对应单词出现的次数
def make_freq_dict(s):
    s=normalize(s)
    words=s.split()
    d={}
    for w in words:
        if w in d:
            d[w]+=1
        else:
            d[w]=1
    return d

def print_file_stats(fname):
    s=open(fname,'r').read()
    #在规整字符串前先统计字符数量
    num_chars=len(s)
    #在规整字符串前先统计行数
    num_lines=s.count('\n')

    d=make_freq_dict(s)
    #统计单词数量
    num_words=sum(d[w] for w in d)

    #创建一个列表，元素为单词及对应出现次数组成的元组
    lst=[(d[w],w) for w in d]
    lst.sort()
    lst.reverse()
    num_words0=len(normalize(s).split())



    print("The file '%s' has: "% fname)
    print("%s characters"% num_chars)
    print("%s lines"% num_lines)
    print("%s words"% num_words)
    print("%s words"% num_words0)
    print("\nThe top 10 most frequent words are:")
    i=1
    for count,word in lst[:10]:
        print("%2d. %2s %s"%(i,count,word))
        i+=1

print_file_stats("3.txt")

练习：
1、修改函数printfilestats,使其也打印文件中不同单词总数。

#这里只需要通过求字典长度即可得知不同单词总数
print("There are %s different words."% len(d))

2、修改函数printfilestats,使其也打印文件中单词平均长度。

#计算单词平均长度
    m=0
    for w in d:
        m+=len(w)*d[w]
    average_length=m/num_words

3、罕用语是指文件中只出现过一次的单词，修改函数，打印罕用语总数。

#计算罕用语数量
    n=0
    for w in d:
        if d[w]==1:
            n+=1

4、一般文章里出现频率较高的都是如the、a、and这些功能词。可以创建一个排除词集合（stop_words），可以在其中设置单词。并在统计数据时，将该集合内的单词排除在外。

#建立一个排除词集合
stop_words={"the","a","i","of","is","in"}
#接受一个字符串s并生成一个字典，该字典的键为s中的单词，并且不在排除集合中
#值为对应单词出现的次数
def make_freq_dict1(s):
    d0=make_freq_dict(s)
    d={}
    for w in d0:
        if w in stop_words:
            continue
        else:
            e={w:d0[w]}
            d.update(e)
    return d

5、函数printfilestats将一个文件名作为输入，并且将整个文件读入字符串中，当文件非常大时，会占用大量内存资源。请编写一个新的函数，逐行读取输入文件。

#先定义一个规整文本字符的函数
def normalize(s):
    keep={'a','b','c','d','e','f','g','h','i','j','k','l',
          'm','n','o','p','q','r','s','t','u','v','w','x',
          'y','z',' ','-',"'"}
    result=""
    for c in s.lower():
        if c in keep:
            result+=c
    return result

#采用逐行读取的方式统计
def print_file_stats(fname):
    f=open(fname,'r')
    #先定义并初始化统计数据
    num_chars=0
    num_words=0
    num_lines=0

    #逐行统计
    for line in f:
        num_chars+=len(line)
        num_words+=len(normalize(line).split())
        d=make_freq_dict(line,d)
        num_lines+=1

    print("The file '%s' has: "% fname)
    print("%s characters"% num_chars)
    print("%s lines"% num_lines)
    print("%s words"% num_words)
print_file_stats("3.txt")