数据离散化的两种方法

最新推荐文章于 2023-05-11 09:41:41 发布

cornivores

最新推荐文章于 2023-05-11 09:41:41 发布

阅读量6.4k

点赞数

本文链接：https://blog.csdn.net/qq_43408978/article/details/103106085

版权

数据离散化是处理大数据问题的一种有效手段，尤其在关注数据大小关系而非具体数值时。本文通过一个1e5数量级的问题实例，探讨了离散化的必要性。文章介绍了两种离散化方法：一是通过结构体排序并使用Rank数组映射；二是创建拷贝数组进行排序和去重，并利用位置作为离散化值，其中二分查找可以优化效率。

摘要由CSDN通过智能技术生成

为什么要离散化？

现在给出这样的一个问题，有1e5个数，每个数的范围在-1e18至1e18之间，有1e5次询问，每次有一个k，询问第k大的数字出现的次数。
当然，第一想法是用map解决，但是掐指一算复杂度，用map计数以后，对于每一次询问，都需要对map进行一遍遍历，显然复杂度过不去。
这时候我们注意到，对于这个问题，我们要关心的只是数据间的大小关系，而不是具体的数值，所以我们只需要将其一一映射即可。对于一组数据3,100001357,-256,378,4,1，如果将这些数据处理成3,6,1,5,4,2，这样的话，直接通过下标索引，就能找到我们要的答案。

样例输入

6
3 100001357 -256 378 4 1

样例输出

3 6 1 5 4 2

方法一：

通过结构体记录当前的值和当前值的位置，先对其值从小到大排序，在用Rank数组将结构体排序后的id设为下标，i设为它的值。

#include<bits/stdc++.h>
#define fio ios::sync_with_stdio(false);cin.tie(0);cout.tie(0);
#define lson rt<<1, l, mid
#define rson rt<<1|1, mid+1, r
#define lowbit(x) x & (-x)
using namespace std;
typedef long long ll;
typedef pair<ll, int> pli;
typedef pair<int, int> pii;
typedef pair<ll, ll> pll;
typedef pair<double, double> pdd;
template<class T>
void read(T &res) {
   
  int f = 1; res = 0;
  char c = getchar();
  while(c < '0'

最低0.47元/天解锁文章

cornivores

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据离散化的两种方法

为什么要离散化？现在给出这样的一个问题，有1e5个数，每个数的范围在-1e18至1e18之间，有1e5次询问，每次有一个k，询问第k大的数字出现的次数。当然，第一想法是用map解决，但是掐指一算复杂度，用map计数以后，对于每一次询问，都需要对map进行一遍遍历，显然复杂度过不去。这时候我们注意到，对于这个问题，我们要关心的只是数据间的大小关系，而不是具体的数值，所以我们只需要将其一一映射即...
复制链接

扫一扫