查找高频词

记录一下这几天想的一个问题

题目

        给定一个由英文字符、数字、空格和英文标点符号组成的字符串,长度不超过5000,请将其切分为单词,要求去掉所有的非英文字母,然后将单词全部转换成小写,然后统计每一个词出现的次数,输出频次最高的那个词以及它出现的次数。如果有多个词的频次相同,则输出按字典序排列在最前面的那个。

示例

         

        例如给定字符串:String input = “1 fish 2 fish red fish blue fish”;
频次最高的单词是fish,它出现了4次。

        

        再比如给定字符串:If the digit is less than 10, then ‘0’ + digit is returned. Otherwise, the value ‘a’ + digit - 10 is returned.
频次最高的单词是digit和is,都出现了3次。但是digit的字典序在is前面,所以应该输出digit和3。

解题思路

这题有几个点是要我们解决的:

1、将大写字母小写化

这个简单,直接调用这个函数即可

str.lower()

2、去掉所有的不合法的字符

这里我调用了string库中的string.punctuation,然后遍历字符串,查找并替换它们

delete_string = string.punctuation
for i in delete_string:
    s = s.replace(i, ' ')

这里注意,replace的时候一定要将要将被替换的字符替换为一个空格,不然可能将两个单词合并成一个,我就踩了这个坑。。。

3、就是排序了,这里我用了字典

首先使用字典记录所有的单词频数,然后先按value排序,再按key值排序

这里我用了lambda表达式,具体的代码如下

n = sorted(d.items(), key=lambda x: (-x[1], x[0]))

最后输出排序后的第一个键值对即可。

代码

import string

s = input()
s = s.lower()
delete_string = string.punctuation
for i in delete_string:
    s = s.replace(i, ' ')
s = list(s.split())
d = {}
for i in s:
    d[i] = d.get(i, 0) + 1
n = sorted(d.items(), key=lambda x: (-x[1], x[0]))
print(n[0][0], n[0][1])

如果大家有什么别的好的算法欢迎指出

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值