记录一下这几天想的一个问题
题目
给定一个由英文字符、数字、空格和英文标点符号组成的字符串,长度不超过5000,请将其切分为单词,要求去掉所有的非英文字母,然后将单词全部转换成小写,然后统计每一个词出现的次数,输出频次最高的那个词以及它出现的次数。如果有多个词的频次相同,则输出按字典序排列在最前面的那个。
示例
例如给定字符串:String input = “1 fish 2 fish red fish blue fish”;
频次最高的单词是fish,它出现了4次。
再比如给定字符串:If the digit is less than 10, then ‘0’ + digit is returned. Otherwise, the value ‘a’ + digit - 10 is returned.
频次最高的单词是digit和is,都出现了3次。但是digit的字典序在is前面,所以应该输出digit和3。
解题思路
这题有几个点是要我们解决的:
1、将大写字母小写化
这个简单,直接调用这个函数即可
str.lower()
2、去掉所有的不合法的字符
这里我调用了string库中的string.punctuation,然后遍历字符串,查找并替换它们
delete_string = string.punctuation
for i in delete_string:
s = s.replace(i, ' ')
这里注意,replace的时候一定要将要将被替换的字符替换为一个空格,不然可能将两个单词合并成一个,我就踩了这个坑。。。
3、就是排序了,这里我用了字典
首先使用字典记录所有的单词频数,然后先按value排序,再按key值排序
这里我用了lambda表达式,具体的代码如下
n = sorted(d.items(), key=lambda x: (-x[1], x[0]))
最后输出排序后的第一个键值对即可。
代码
import string
s = input()
s = s.lower()
delete_string = string.punctuation
for i in delete_string:
s = s.replace(i, ' ')
s = list(s.split())
d = {}
for i in s:
d[i] = d.get(i, 0) + 1
n = sorted(d.items(), key=lambda x: (-x[1], x[0]))
print(n[0][0], n[0][1])
如果大家有什么别的好的算法欢迎指出