使用python分析英语四级试题中各个词汇出现的次数

**

使用python分析英语四级试题中各个词汇出现的次数

**
这是今天上课时出现的想法,觉着使用hadoop大数据集群实现太麻烦,于是乎自己写了一个程序实现它

1.打开pycharm,鼠标单击左侧选项栏,新建一个python文件,命名为wordcount
如图在这里插入图片描述
2.将下方代码复制进wordcount文件中,如下图
在这里插入图片描述

import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf8')
fi=open("a.txt","r",encoding='utf-8')
#with open('b.txt',errors='ignore')
fo= open("b.txt","w",encoding='utf-8')
txt=fi.read().split(" ")
d={}
#exclude=["the","as","to","and","is","are","in","with","our","by","this","a","some","or","you","my","of","one","C)","D)","A)","B)","-"," "]
for word in txt:
    # if word in exclude:
         #continue
    # else:
            d[word]=d.get(word,0)+1
ls=list(d.items())
ls.sort(key=lambda x:x[1],reverse=True)
for i in range(len(ls)):
    fo.write("{}:{}".format(ls[i][0],ls[i][1])+"\n")
fi.close
fo.close

3.在wordcount文件同一目录下分别创建a.txt和b.txt文件,如图所示
在这里插入图片描述
4.打开a.txt,将四级试题内容粘贴进去,这里我放了十套真题
在这里插入图片描述
5.打开wordcount文件,按f5运行程序
在这里插入图片描述
ps:编写代码时遇到了一个字符编码的问题,上网查了查资料,原来是utf-8没有弄好

6.各个词汇出现的次数保存在b.txt文件中,打开它,我们便能查看结果了在这里插入图片描述

哈哈,大功告成

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值