离散化技巧

蒟蒻Lucas

已于 2022-08-05 17:35:29 修改

阅读量295

点赞数 1

分类专栏：实用技巧文章标签：算法 c++

于 2022-07-17 12:50:15 首次发布

本文链接：https://blog.csdn.net/lucas_fc_/article/details/125826672

版权

实用技巧专栏收录该内容

6 篇文章 0 订阅

订阅专栏

离散化是将无限空间的有限个体映射到有限空间，提升算法效率。通常用于处理大范围数据，保持相对大小不变。文章介绍了离散化的原理，包括通过`lower_bound`进行二分查找，`unique`操作去除重复元素，以及`sort`进行排序。通过辅助数组排序、去重和`lower_bound`操作实现离散化。

摘要由CSDN通过智能技术生成

离散化的定义与作用

离散化，把无限空间中有限的个体映射到有限的空间中去，以此提高算法的时空效率。
通俗的说，离散化是在不改变数据相对大小的条件下，对数据进行相应的缩小。例如：
原数据：1,999,100000,15；处理后：1,3,4,2；
在 $O I$ 路上我们会发现，有很多时候数据的范围特别特别大，但我们发现我们并不需要用到这些实际数据，只会用到数据之间的相对大小，这个时候我们就可以考虑离散化操作。

离散化的代码原理与实现

想要学习离散化，下面的几个操作必须学会。

1.lower_bound( begin,end,num)：

从数组的begin位置到end-1位置二分查找第一个大于或等于num的数字，找到返回该数字的地址，不存在则返回end。通过返回的地址减去起始地址begin,得到找到数字在数组中的下标。

2.unique操作：

“去除”容器或数组中相邻元素之间重复出现的元素。
unique函数的三个参数：

1、想要去重的数据集的起始地址
2、想要去重的最后一个元素的下一个元素的地址
3、比较函数(可以省略，也可以自定义，一般不太用到第三个参数)

返回值：返回的是去重后的不重复数列中最后一个元素的下一个元素的地址(注意是类似于0x的真正地址)

注意：
1、该函数并非真正地去除重复元素，只是把重复的元素放到数组的最后面藏起来了。
2、针对的是相邻元素，也就是说对于顺序错乱的数组，需要先进行排序，再配合erase后，才可以实现真正意义上的去重(也可以根据返回值枚举不重复的部分)

3.sort操作：

没啥好说的，就是对给定区间所有元素进行排序，默认为升序，当然也可进行降序排序。

原理

分为两个数组，一个是要离散的数组，另一个是辅助离散数组。先将辅助数组全部赋值为离散数组，再对辅助数组排序去重再统计大小，最后用 $l o w er$ $b o u n d$ 操作就可以有效的将大数据转化为小数据。（当然你也可以用 $u pp er$ $b o u n d$ 实现）。

实现

const int MAXN=114514;
int a[MAXN],f[MAXN];//a[MAXN]为要离散的数组，f[MAXN]为辅助离散数组； 
for(int i=1;i<=n;i++){
	cin>>a[i];
	f[i]=a[i];
}
sort(f+1,f+n+1);//排序 
int len=unique(f+1,f+n+1)-f-1;//去重并统计去重后数组的大小 
for(int i=1;i<=n;i++)
a[i]=lower_bound(f+1,f+len+1,a[i])-f;