最常见的单词
题目:最常见的单词
给定一个段落 (paragraph) 和一个禁用单词列表 (banned)。返回出现次数最多,同时不在禁用列表中的单词。
题目保证至少有一个词不在禁用列表中,而且答案唯一。
禁用列表中的单词用小写字母表示,不含标点符号。段落中的单词不区分大小写。答案都是小写字母。
示例:
输入:
paragraph = “Bob hit a ball, the hit BALL flew far after it was hit.”
banned = [“hit”]
输出: “ball”
解释:
“hit” 出现了3次,但它是一个禁用的单词。
“ball” 出现了2次 (同时没有其他单词出现2次),所以它是段落里出现次数最多的,且不在禁用列表中的单词。
注意,所有这些单词在段落里不区分大小写,标点符号需要忽略(即使是紧挨着单词也忽略, 比如 “ball,”),
"hit"不是最终的答案,虽然它出现次数更多,但它在禁用单词列表中。
提示:
1 <= 段落长度 <= 1000
0 <= 禁用单词个数 <= 100
1 <= 禁用单词长度 <= 10
答案是唯一的, 且都是小写字母 (即使在 paragraph 里是大写的,即使是一些特定的名词,答案都是小写的。)
paragraph 只包含字母、空格和下列标点符号!?’,;.
不存在没有连字符或者带有连字符的单词。
单词里只包含字母,不会出现省略号或者其他标点符号。
我的代码
这道题我反复做了几次才做对,感觉不是很难,但是需要注意一些细节,
- paragraph 中的字符串不一定是用
" "
分割的,可能是由其他符号分割的。 - 字符串
"b,b,b,b"
去除符号后是变为4个字符串"b"
而不是一个字符串"bbbb"
所以最后我的代码如下:
class Solution {
public String mostCommonWord(String paragraph, String[] banned) {
if(paragraph.length() == 0)
return "";
//key为字符串,value为出现次数
HashMap<String,Integer> map = new HashMap<>();
int max = 0;
String maxString = "";
//存放禁词表
HashSet<String> set = new HashSet<>();
String[] strings = paragraph.trim().split(" ");
for(String s: banned){
set.add(s);
}
for(String s:strings){
if(s.equals("")|| s.equals("!") || s.equals("?") || s.equals("") || s.equals(",") || s.equals(";") || s.equals("."))
continue;
LinkedList<String> list = caps(s);
for(String tmp:list){
// System.out.println(s);
if(set.contains(tmp))
continue;
if(map.containsKey(tmp)){
int count = map.get(tmp)+1;
if(count > max){
max = count;
maxString = tmp;
}
map.put(tmp,count);
}else{
if(1 > max){
max = 1;
maxString = tmp;
}
map.put(tmp,1);
}
}
}
return maxString;
}
//大写转小写,分割字符串
public LinkedList<String> caps(String s){
LinkedList<String> list = new LinkedList<>();
char[] chars = s.toCharArray();
// for(int i=0;i<chars.length;i++){
// if(chars[i] >= 'A' && chars[i] <= 'Z')
// chars[i] -= 'A' - 'a';
// if(chars[i] >= 'a' && chars[i] <='z')
// sb.append(chars[i]);
// else
// }
int i = 0;
while(i < chars.length){
StringBuilder sb = new StringBuilder();
while(i < chars.length && ((chars[i] >= 'A' && chars[i] <= 'Z') || (chars[i] >= 'a' && chars[i] <='z'))){
if(chars[i] >= 'A' && chars[i] <= 'Z')
chars[i] -= 'A' - 'a';
sb.append(chars[i]);
i++;
}
if(sb.toString().length() != 0)
list.add(sb.toString());
i++;
}
return list;
}
}
官方题解
感觉自己写的代码不是很好,所以又去看了一眼官方题解,看上去比我的整洁不少,所以决定学习一下。
官方题解给出的代码是这个样子的:
class Solution {
public String mostCommonWord(String paragraph, String[] banned) {
paragraph += ".";
Set<String> banset = new HashSet();
for (String word: banned) banset.add(word);
Map<String, Integer> count = new HashMap();
String ans = "";
int ansfreq = 0;
StringBuilder word = new StringBuilder();
for (char c: paragraph.toCharArray()) {
if (Character.isLetter(c)) {
word.append(Character.toLowerCase(c));
} else if (word.length() > 0) {
String finalword = word.toString();
if (!banset.contains(finalword)) {
count.put(finalword, count.getOrDefault(finalword, 0) + 1);
if (count.get(finalword) > ansfreq) {
ans = finalword;
ansfreq = count.get(finalword);
}
}
word = new StringBuilder();
}
}
return ans;
}
}
/**
* 作者:LeetCode
链接:https://leetcode-cn.com/problems/most-common-word/solution/zui-chang-jian-de-dan-ci-by-leetcode/
来源:力扣(LeetCode)
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
**/
对比
我的想法是先按照空格分割,然后读出字符串的时候根据字符串中符号进行分割,顺便完成大小写转换。
我这么写的原因是因为我一开始以为字符串之间一定是由空格分割的,后来发现不对之后在原来的代码基础上修改的,所以有一些冗余。
而官方的代码则是用一个while
循环不断判断读出的字符串是否是字母,是的话把它变为小写放入StringBuilder
中,然后当读到不是字母的时候,说明前面的StringBuilder
构成了一个word,就把它进行比较,这样更加简练(但是其实也有问题,如果我最后一个字符不是符号,那难道StringBuilder
就不提交了吗?所以只好认为这道题目中的自然段是真正意义上的自然段一定会以符号结尾)。
其实最重要的一点是我的代码中大小写转换和判断是否是字母都是手动进行的,其实Java早就封装好了方法,直接调用就可以了。
Character.isLetter()
判断是否是字母,是返回true,否则返回false。Character.toLowerCase()
指定字母的小写形式。
除此之外还有:
isDigit()
判断是否是数字isWhitespace()
判断是否是空白字符isUpperCase()
判断是否是大写字母isLowerCase()
判断是否是小写字母toUpperCase()
指定字符串的大写形式toString()
返回字符的字符串形式,长度为1
所以不要每次都使用if(c >= 'a' && c <= 'z')
了,使用if(isLowerCase(c))
方便很多,由于这些方法都在java.lang.*
包下,甚至都不用导入。
另外还有一个比较函数compareTo
,使用string1.compareTo(string2)
可以比较两个字符串的字典序,注意返回值是int类型的。