347. 前 K 个高频元素

最新推荐文章于 2024-09-14 20:30:05 发布

Ptilopsyis

最新推荐文章于 2024-09-14 20:30:05 发布

阅读量878

点赞数 20

文章标签：算法数据结构 leetcode c语言排序算法

本文链接：https://blog.csdn.net/qq_35085273/article/details/139480958

版权

题目

给你一个整数数组 nums 和一个整数 k ，请你返回其中出现频率前 k 高的元素。你可以按任意顺序返回答案。

示例 1:

输入: nums = [1,1,1,2,2,3], k = 2
输出: [1,2]
示例 2:

输入: nums = [1], k = 1
输出: [1]

提示：

1 <= nums.length <= 105
k 的取值范围是 [1, 数组中不相同的元素的个数]
题目数据保证答案唯一，换句话说，数组中前 k 个高频元素的集合是唯一的

进阶：你所设计算法的时间复杂度必须优于 O(n log n) ，其中 n 是数组大小。

代码

完整代码

/**
 * Note: The returned array must be malloced, assume caller calls free().
 */
typedef struct 
{
    int freq;
    int val;
}freq_t;
#include <stdlib.h>
int cmp(const void *a,const void *b)
{
    return (*(freq_t*)b).freq - (*(freq_t*)a).freq;
}
int* topKFrequent(int* nums, int numsSize, int k, int* returnSize) {
    freq_t *freq = (freq_t*)calloc(5000, sizeof(freq_t));
    for (int i = 0; i < numsSize; i++)
    {
        if(nums[i] < 0)
        {
            nums[i] += 2000;
            freq[nums[i]].val = nums[i] - 2000;
        }
        else
        {
            freq[nums[i]].val = nums[i];
        }
        (freq[nums[i]].freq)++;
        // printf("freq[%d].val = %d",nums[i], freq[nums[i]].val);
    }
    // for (int i = 0; i < 100000; i++)
    // {
    //     if(freq[i].val != 0)
    //     {
    //         printf("freq of %d is %d\n",freq[i].val,freq[i].freq);
    //     }
    // }
    
    qsort(freq, 2000, sizeof(freq_t), cmp);
    // printf("after qsort\n");
    // for (int i = 0; i < 100000; i++)
    // {
    //     if(freq[i].val != 0)
    //     printf("freq of %d is %d\n",freq[i].val,freq[i].freq);
    // }
    
    int *res = (int*)calloc(5000, sizeof(int));
    int index = 0;
    for (int i = 0; i < 5000; i++)
    {
        if(freq[i].freq == 0)
        {
            continue;
        }
        res[index] = freq[i].val;
        index++;
    }
    *returnSize = k;
    return res;
}

思路分析

先用一个结构体数组记录每个数字出现的频率和这个数字本身，然后对出现频率进行降序排列，然后输出前n个即可。

拆解分析

之所以用的5000和2000是因为代码中没有给nums[i]的峰值，如果申请太大的话，会浪费空间和时间，因此测试出最大输入好像是3333，如果在其他情况下可以优化为max(nums[i]),且由于样本中有负值，其实应该弄一个哈希表映射成正数，但是这里简单用了+2000，是测试出来的一个没有重复的值，也是投机取巧的方法。

    freq_t *freq = (freq_t*)calloc(5000, sizeof(freq_t));
    for (int i = 0; i < numsSize; i++)
    {
        if(nums[i] < 0)
        {
            nums[i] += 2000;
            freq[nums[i]].val = nums[i] - 2000;
        }
        else
        {
            freq[nums[i]].val = nums[i];
        }
        (freq[nums[i]].freq)++;
        // printf("freq[%d].val = %d",nums[i], freq[nums[i]].val);
    }

排列

qsort(freq, 2000, sizeof(freq_t), cmp);

填充结果

    for (int i = 0; i < 5000; i++)
    {
        if(freq[i].freq == 0)// 排序不知道为什么，可能出现freq = 0没有被弄到后面，所以这里筛选下
        {
            continue;
        }
        res[index] = freq[i].val;
        index++; // index变量也是弥补排序问题
    }

复杂度分析

时间复杂度分析：
填充freq数组：O(n)，其中n是nums数组的大小。需要遍历整个nums数组一次。
qsort排序：在最坏的情况下是O(n log n)，但由于freq数组的大小被硬编码为5000（而不是基于nums的实际内容），所以这个“n”实际上是5000，而不是nums的大小。然而，如果nums中的元素范围确实接近5000，并且分布均匀，则这个时间复杂度可能接近O(numsSize log numsSize)。
构建结果数组：O(m)，其中m是freq数组中非零元素的数量。这通常小于或等于5000，但可能远小于这个值，具体取决于nums的内容。
空间复杂度：
freq数组：O(maxVal + 1)，其中maxVal是nums中的最大元素值（经过可能的偏移处理）。由于硬编码为5000，因此空间复杂度是O(5000)。
结果数组res：O(2000)，但实际上只需要O(k)，因为只返回前k个元素。这是浪费的。但是不知道为什么，我如果只申请k，运行会报溢出，申请k+1或者k+2也不行，必须申请一个上千的数组。
其他变量：O(1)，因为只使用了固定数量的额外变量。