Python编程：字符串处理与单词频次统计,-CSDN博客

本文链接：https://blog.csdn.net/m0_74274799/article/details/135217466

记录一下这几天想的一个问题

题目

给定一个由英文字符、数字、空格和英文标点符号组成的字符串，长度不超过5000，请将其切分为单词，要求去掉所有的非英文字母，然后将单词全部转换成小写，然后统计每一个词出现的次数，输出频次最高的那个词以及它出现的次数。如果有多个词的频次相同，则输出按字典序排列在最前面的那个。

示例

        例如给定字符串：String input = “1 fish 2 fish red fish blue fish”;
频次最高的单词是fish，它出现了4次。



        再比如给定字符串：If the digit is less than 10, then ‘0’ + digit is returned. Otherwise, the value ‘a’ + digit - 10 is returned.
频次最高的单词是digit和is，都出现了3次。但是digit的字典序在is前面，所以应该输出digit和3。

解题思路

这题有几个点是要我们解决的：

1、将大写字母小写化

这个简单，直接调用这个函数即可

str.lower()

2、去掉所有的不合法的字符

这里我调用了string库中的string.punctuation，然后遍历字符串，查找并替换它们

delete_string = string.punctuation
for i in delete_string:
    s = s.replace(i, ' ')

这里注意，replace的时候一定要将要将被替换的字符替换为一个空格，不然可能将两个单词合并成一个，我就踩了这个坑。。。

3、就是排序了，这里我用了字典

首先使用字典记录所有的单词频数，然后先按value排序，再按key值排序

这里我用了lambda表达式，具体的代码如下

n = sorted(d.items(), key=lambda x: (-x[1], x[0]))

最后输出排序后的第一个键值对即可。

代码

import string

s = input()
s = s.lower()
delete_string = string.punctuation
for i in delete_string:
    s = s.replace(i, ' ')
s = list(s.split())
d = {}
for i in s:
    d[i] = d.get(i, 0) + 1
n = sorted(d.items(), key=lambda x: (-x[1], x[0]))
print(n[0][0], n[0][1])

如果大家有什么别的好的算法欢迎指出