python统计英文单词出现次数并把结果生成字典

最近舍友在学Python,有个作业是为了解决统计单词出现次数并把结果输出成字典这个问题,感觉挺有趣的,就写了一段demo代码,分享在博客上,希望对你有所帮助。

1.解决思路

(1)排除掉其他干扰项。 我们的目标是统计英文单词出现次数,拿到的数据源是一段由英文单词和各种符号的片段,所以干扰项就是各种符号。因为涉及的符号过多,只需要a-z和A-Z,不可能把所有的字符全部用replace方法替换掉,所以自然而然的想到正则匹配,在python里面的re模块,用里面的sub方法来进行干扰项的过滤。

注意:要保留完整的单词就不能把空格也去掉,把其它字符全替换成空格即可。

re.sub: 替换所有的匹配项,返回一个替换后的字符串,如果匹配失败,返回原字符串

(2)将单词分割成列表。 第一步中我们保留了空格,第二步我们就以空格为特点分割单词,生成列表。

注意:由于可能存在连续两个空格存在的情况,所以要用str.remove("")去除多余的空项

(3)生成字典的键列表。 建一个新的列表作为字典的键列表,遍历原来的单词列表,如果单词列表里面的单词不在新列表里,就往新列表里添加该单词。

(4)将单词作为结果字典的键。 使用字典的fromkeys方法来把第三步生成的key列表作为结果字典的键。

dict.fromkeys(seq[, value])
seq -- 字典键值列表。
value -- 可选参数, 设置键序列(seq)的值。

(5)遍历key列表,利用count函数统计单词出现次数

2.代码实现

# 统计单词出现次数并把结果输出成字典
# 数据输入
str = "Hello world, There are some test words. Hello world, There are some test words. Haha!"

# 过滤规则:过滤掉所有非字母的字符
import re
str = re.sub(r"[^a-zA-Z]+", " ",str)
print("过滤后的字符串:",str)

#拆分成列表
str = str.split(" ")
# 去除多余的空项
str.remove("")
print("拆分成列表:",str)

# 生成字典的key列表
dict_keys = []
for i in str:
	if i not in dict_keys:
		dict_keys.append(i)
print("key列表:",dict_keys)

# 输出字典

# 定义空字典
words_dict = {}

# 往字典写入key值
words_dict.fromkeys(dict_keys)

# 遍历key列表,利用count函数统计单词出现次数
for j in dict_keys:
	words_dict[j] = str.count(j)
print("字典:",words_dict)

3.效果展示

效果展示

  • 14
    点赞
  • 57
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值