python生成字典记录单词数目_从文本文件创建Python字典并检索每个单词的计数

本文展示了如何使用Python的collections.Counter模块从文本文件中读取内容,创建一个字典来记录每个单词的出现次数。通过忽略标点和大小写,可以更准确地计数,并有效地处理大文件。
摘要由CSDN通过智能技术生成

这听起来像是collections.Counter的工作:import collections

with open('gettysburg.txt') as f:

c = collections.Counter(f.read().split())

print "'Four' appears %d times"%c['Four']

print "'the' appears %d times"%c['the']

print "There are %d total words"%sum(c.values())

print "The 5 most common words are", c.most_common(5)

结果:$ python foo.py

'Four' appears 1 times

'the' appears 9 times

There are 267 total words

The 5 most common words are [('that', 10), ('the', 9), ('to', 8), ('we', 8), ('a', 7)]

当然,这将“自由”和“这个”算作单词(注意单词中的标点符号)。此外,它还将“The”和“The”视为不同的单词。此外,处理整个文件可能会丢失非常大的文件。

这是一个忽略标点和大小写的版本,在大文件上更节省内存。import collections

import re

with open('gettysburg.txt')

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值