离散化算法

目录

算法原理

算法模板

1)手工编码

2)c++用STL函数实现离散化

附录:


算法原理

        给出一列数字,在有些情况下,这些数字的值得绝对大小不重要,而相对大小很重要。例如,对一个班级学生的成绩进行排名,此时不关心成绩的绝对值,只需要输出排名,如分数为{95,50,72,21},排名为{1,3,2,4}。

        离散化就是用数字得相对值替代他们得绝对值。离散化是一种数据处理的技巧。

它把分布广而稀疏的数据转换为密集分布,从而能够让算法更快速、更省空间地处理。

例如,(4000,201,11,45,830),数字的分布很稀疏,按大小排序为(5,3,1,2,4),若算法处理的是数字的相对位置问题,那么对后者的处理更容易。

离散化步骤如下

1)排序:首先需要对数列排序,排序后才能确定相对大小。

2)离散化:把排序后的数列元素从 1开始逐个分配数值,完成离散化。

3)归位:把离散化后的每个元素放回原始位置,结束。图 2.15 演示了把(4000,201,11,45,830)离散化为(5,3,1,2,4)的过程。带下画线的字记录了原始位置,相当于数据的原始地址,最后的归位需要利用这些下画线数字。

                

算法模板

1)手工编码

给定得数列中经常有重复的数据,如{4000,201,11,45,11}.数字11重复了,可以分为两种情况进行离散化

1)一般把相同的数据离散化为相同的数据,即把{4000,201,11,45,11}.离散化为{5,4,1,3,1}.

下面是代码,其中olda[]记录原始数据,newa[]是离散化的结果。

#include<stdio.h>
#define N  500010   //自己定义一个范围
struct node{
  int val;              //元素的值
  int id;               //元素的位置
}olda[N]; //离散化之前的原始数据

int newa[N]; //离散化后的结果

int cmp(const void *a,const void *b)
	{ 
	 struct node *aa = (struct node *)a;
     struct node *bb = (struct node *)b;
     return (((aa->val) > (bb->val)));	
	}
	
int main(){
 	int n;      
	scanf("%d",&n);                  //读元素个数
    for(int i=1;i<=n;i++)
	{
        scanf("%d",&olda[i].val);                //读元素的值
        olda[i].id = i;                          //记录元素的位置
	}
	qsort(&olda[1],n,sizeof(olda[1]),cmp);             //对元素的值排序
    for(int i=1;i<=n;i++)
	{                       //生成 newa[]
		newa[olda[i].id]=i; //这个元素原来的位置在olda[i].id,把它的值赋为i,i是离散化后的新值
	    if(olda[i].val == olda[i-1].val)          //若两个元素的原值相同,把新值赋为相同
			newa[olda[i].id] = newa[olda[i-1].id];
    }
    for(int i=1;i<=n;i++)  
	printf("%d ",newa[i]); //打印出来看看
    return 0;
}

2)有时要求后出现的数据比先出现的大,即把{4000,201,11,45,11}.离散化为{5,4,1,3,2}.把上面的代码的倒数第六七行注释即可。

对于c++玩家,若需要对重复的数据进行去重,可以使用unique函数

2)c++用STL函数实现离散化

可以用 STL的 lower bound()和unique函数实现离散化。
lower_bound()函数的功能是在有序的数列中查找某个元素的相对位置。这个位置正好是做离散化时元素初值对应的新值。
有时还需要用 unique()函数去重,下面分别讨论不去重和去重情况下的操作。
(1)不去重,把相同的数据离散化为相同的数据。把(4000,201,11,45,11)离散化为(5,4,1,3,1),代码如下。

#include<bits/stdc++.h>
using namespace std;
const int N = 500010;  // 自己定义一个范围
int olda[N];           // 离散化前
int newa[N];           // 离散化后
int main(){
    int n;    scanf("%d",&n);
    for(int i=1;i<=n;i++) {
        scanf("%d",&olda[i]);      //读元素的值
        newa[i] = olda[i];
	}
    sort(olda+1,olda+1+n);         //排序
    int cnt = n;
  //cnt = unique(olda+1,olda+1+n)-(olda+1);  //去重,cnt是去重后的数量
    for(int i=1;i<=cnt;i++)                  //生成 newa[]
		newa[i]=lower_bound(olda+1,olda+1+n,newa[i])-olda; 
                   //查找相等的元素的位置,这个位置就是离散化后的新值
    for(int i=1;i<=cnt;i++)   printf("%d ",newa[i]);   //打印出来看看        
    printf("\n cnt=%d",cnt);    
    return 0;
}

2)去重,把相同的数据离散化为一个数据,上述代码加上第14行的去重功能后,离散化为{4,3,1,2}

附录:

               

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值