【Leetcode819】最常见的单词

Leetcode819 最常见的单词

1.题目

给定一个段落 (paragraph) 和一个禁用单词列表 (banned)。返回出现次数最多,同时不在禁用列表中的单词。

题目保证至少有一个词不在禁用列表中,而且答案唯一。

禁用列表中的单词用小写字母表示,不含标点符号。段落中的单词不区分大小写。答案都是小写字母。

2.解题思路

首先分析题目,得出输入和输出:输入一个字符串段落和一个字符串数组。输出字符串段落中出现次数最多, 并且不在字符串数组里的单词字符串。从题目可知这是一道分析词频的题目。

因为要输出字符串段落中的单词字符串,所以需要字符串拆分(strtok)

因为要采集字符串次数,因此需要使用到字典(dict)和排序(qsort)

因为要确认每个拆分出来的字符串不属于banned列表中,因此每次要进行比较(strcmp)

综上分析,核心解法可以分成:

step1. 拆分字符串(strtok)

step2. 遍历比较当前拆下来的字符串是否在banned中 (strcmp)

step3.1 若在banned中,跳过处理。 step3.2 若不在banned中,则遍历判断是否已经记录在字典中(dict = {word : count})

step4.2.1 若不在字典中,则字典中新增一个({word, count=1})

step4.2.2 若在字典中, 则对应word的count + 1

step5. 按照上述循环完成整个字符串段落的搜索

step6. 对字典的词频进行从大到小排序,并取出词频最大值 count_max所对应的单词。(也可以再遍历一遍字典,筛选出最大值)

再考虑预处理,

pre1. 由于字符串分割时,只能对特定某一种符号进行分割,因此需要将标点符号全转化为空格符号。

pre2. 题目提到banned都是小写字符,因此需要遍历一次数组,将所有大写字母化为小写。

pre3. 题目已经定死段落长度为1000单词以内,单词长度小于10,对于C语言解题时,可以直接写死数组长度。

3.数据结构与算法

数据结构:字典

算法:字符串拆分算法、排序算法

4.字符串拆分 + 定长字典排序

typedef struct {
    char val[11];
    int time;
} WordDict;

int Cmp (const void* a, const void* b)
{
    return ((WordDict*)b)->time - ((WordDict*)a)->time;
}

char * mostCommonWord(char * paragraph, char ** banned, int bannedSize) {
    int i;
    int j;
    int is_in_banned = 0;   //  是否在banned名单里
    int is_in_dict = 0;  //     是否已经存在dict里

    // 预处理
    while (paragraph[i] != 0) {
        if (paragraph[i] >= 'A' && paragraph[i] <= 'Z') {
            // paragraph[i] += ('a' - 'A');
            paragraph[i] = tolower(paragraph[i]);
        }
        if ((paragraph[i] < 'A' || paragraph[i] > 'Z') && ((paragraph[i] < 'a' || paragraph[i] > 'z'))) {
            paragraph[i] = ' ';
        }
        i++;
    }
    
    // 创建词频字典 word,count
    // 因为不知道多少单词,所以定位为段落的最大值。
    WordDict para_word_dict[1000];
    memset(para_word_dict, 0, sizeof(WordDict) * 1000);

    // 主功能,提取字符串
    char* temp = strtok(paragraph, " ");

    // 每次获得新单词时候,int is_in_banned, is_in_dict标记清零
    while (temp != NULL) {
        is_in_banned = 0;
        is_in_word = 0;
        
        // 判断是否在banned中
        for (i = 0; i < bannedSize; i++) {
            if (strcmp(banned[i], temp) == 0) {
               is_in_banned = 1;
               break;
            }
        }
        
        // 若在banned中,下面if不执行,直接分割下个字符串
        // 若不在banned中,判断是否在字典中。
        if (!is_in_banned) {
            j = 0;
            is_in_word = 0;
            
            // 判断是否在字典中->遍历有序字典到当前字典末端,time = 0 等价于 !val
            while (para_word_dict[j].time != 0 && j < 1000) {
                if (strcmp(para_word_dict[j].val, temp) == 0) {
                    para_word_dict[j].time++;
                    is_in_word = 1;
                    break;
                }
                j++;
            }
            
            // 不在,则新增一个val,time
            if (!is_in_word) {
                strcpy(para_word_dict[j].val, temp);
                para_word_dict[j].time++;
            }
        }
		
        // 获取新字符串
        temp = strtok(NULL, " ");
    }

	qsort(para_word_dict, 1000, sizeof(para_word_dict[0]), Cmp);
    
    // 输出
    char* res = (char*)malloc(11);
    memset(res, 0, 11);
    strcpy(res, para_word_dict[0].val);
    return res;
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值