python show-me-the-code 第0004

第 0004 题:任一个英文的纯文本文件,统计其中的单词出现的个数。

分析:此题重点在于文本的分割和非单词字符的去除

英文文档text.txt内容如下:

I am a pythoner! I like python!
python is great.








代码如下:

# encoding=utf-8  
import re,string
x=''
r=[]
d={}
text=open('text.txt') #获取文本
t=text.readlines() #按行读取全部内容
delEstr=string.punctuation+string.digits #数字和符号的集合(虽然这题是纯英文,但是适用一般文本)
identify=string.maketrans('','') #翻译方法
for i in t:
	i=i.translate(identify,delEstr) #去符号和数字
	r+=i.split() #去空格
for i in r:
	if i not in d.keys():     #统计
		d[i]=1
	else:
		d[i]+=1
print d
print 'The number of word: %d' %len(d)


结果如下:
{'a': 1, 'great': 1, 'love': 1, 'I': 2, 'is': 1, 'am': 1, 'python': 2, 'pythoner': 1}
The number of word: 8
[Finished in 0.2s]


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值