我获得了一种学习英语阅读的新方法——python英语阅读词频统计

最新推荐文章于 2022-09-20 19:53:55 发布

Toby不写代码

最新推荐文章于 2022-09-20 19:53:55 发布

阅读量312

点赞数

分类专栏： python学习文章标签： python

本文链接：https://blog.csdn.net/azrealq/article/details/116377897

版权

python学习专栏收录该内容

15 篇文章 3 订阅

订阅专栏

文章目录

一.概述
二.英语高考阅读理解词频统计

一.概述

1.概述
在很多情况下，会遇到这样的问题，对于给定的一篇文章统计其多次出现的词语，进而进行文章内容的分析，这也就是词频统计问题。

二.英语高考阅读理解词频统计

1.分解并提取英文文章的单词
通过txt.lower() 函数将字母都变成小写，排除原文大小写差异对词频统计的干扰。为统一分隔方式，可以将各种特殊字符和标点符号使用txt.replace() 方法替换成空格，再提取单词。

2.遍历文本，对每个单词进行计数
单词保存在变量word中，使用一个字典类型counts={}统计单词出现的次数

3.排key序
对单词统计值从高到低进行排序，由于字典类型没有顺序，可以先转为列表类型，再使用sort()方法和lambda函数配合实现单词次数的排序。

列表排序

num_list=[6,4,8,10,2]
num_list.sort()
print(num_list)
#结果为[2,4,6,8,10]
L=[('a',2),('b',6),('c',4)]
L.sort()
print(L)
#结果为[('a',2),('b',6),('c',4)]，并没有进行排序
L.sort(key=lambda x:x[1])
#结果为[('a',2),('c',4),('b',6)]
#sort函数可以传入函数类型的参数key，并且只能有一个返回值，对这个返回值进行排序
#sort函数可以传入reverse参数为True实现从大到小排序

#英语阅读词频统计
ex={"the","his","and","the","of","you","i","my","in","for","a","to","was","has","who","what","had","from","were","they","them","been","an"}
#该集合用于排除这些常见词语
def getText():
    txt=open("E:\\aa.txt").read()#路径导入自己的txt文件
    txt=txt.lower()
    for ch in '!?.,<>@#$%^&*())+=-_~`':
        txt=txt.replace(ch," ")
    return txt
article=getText()
words=article.split()
counts={}
for word in words:
    counts[word]=counts.get(word,0)+1
for word in ex:
    if word in counts.keys():
        del(counts[word])

items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(9):#打印前几位的单词
    word,count=items[i]
    print("{0:<10}{1:>5}".format(word,count))

打印结果如下

languages    10
have          6
many          4
people        4
small         3
shackleton    3
more          3
with          3
as            3

Toby不写代码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录