用Python读取全英文txt文档,并统计其中单词个数和单词使用频率

过程分为三步:1、读取文档;2、统计单词个数;3、统计单词使用频率

1、读取txt文档

# 对英文text文档进行统计,得到英文文档使用了多少个单词,每个单词的使用频率,
path = 'English1.txt'
with open(path, 'r', encoding='UTF-8') as f:
    content = f.read()      # 为字符串内容

encoding = 'UTF-8'防止乱码,f.read()返回字符串类型

2、统计单词个数

 # 统计单词个数
    content_words = content.split()
    words = [word for word in content_words if word not in ['.', ',']]
    print('%s中共用了%d个单词' % (path, len(words)))

使用split()函数对字符串进行单词分离(分离后会包含标点符号),以列表形式返回

利用列表推导式去除标点符号

3、统计单词使用频率

# 统计单词使用频率
    dict1 = {}
    for word in words:
        if word not in dict1.keys():
            dict1[word] = 1
        else:
            dict1[word] += 1
    print('%s中的单词频率为:' % path, dict1)
    print('%s中使用单词%d种' % (path, len(dict1)))

利用字典键值对关系分别记录单词和单词使用频率

部分结果如下:

 

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值