算法学习之--最大堆与索引堆

最大堆

  应用场景:

  之前学习的O(nlgn)级别的排序算法在面对动态维护的数据或者是只选出top n个元素这样的问题时并不是最优解,它们的效率在极端情况下又回到了O(n^2)级别,在这种情况下使用堆排序更为合适。

  概念

  数据结构上,最大堆是一种特殊的完全二叉树(父节点的值一定大于子节点,也叫最大完全二叉树),在本算法实现中将二叉树从上至下从左至右进行编号(索引从1开始,为了方便计算叶子节点索引值),根据编号顺序将元素值存入数组。 

  算法实现如下,关键点在于二叉树节点索引值的维护和最大堆特性的维护

#pragma once
#include <cassert>
#include "SortTestHelper.h"

/************************************************************************/
/* 最大堆:实际上是最大完全二叉树(父节点数值大于子节点的完全二叉树),以从上到下、从左到右的顺序将节点数值存储在数组中
/************************************************************************/

using namespace std;

template<class Item>
class MaxHeap
{
public:
	MaxHeap(int capacity)
	{
		data = new Item[capacity+1];	//数据从[1]位置处开始存储,这样使得父节点索引为其叶子节点索引除以二向下取整
		this->capacity = capacity;
		count = 0;
	}

	/*在随机的完全二叉树中,叶子节点本身就是有序的(因为没有子节点,最大堆的要求是父节点大于子节点),
	只需要对所有的非叶子节点倒序执行shiftDown操作*/
	MaxHeap(Item arr[],int size)
	{
		data = new Item[size+1];	//数据从[1]位置处开始存储,这样使得父节点索引为其叶子节点索引除以二向下取整
		this->capacity = size;
		for(int i=0;i<size;i++)
			data[i+1] = arr[i];
		count = size;
		for(int i=count/2;i>=1;i-- )//完全二叉树中,最后一个非叶子节点的索引为count/2
			shiftDown(i);
	}

	~MaxHeap(void)
	{
		delete data;
		data = nullptr;
	}

	int size()
	{
		return count;
	}


	///插入元素
	void insert(Item item)
	{
		assert(capacity>=count+1);
		data[count+1] = item;
		count++;
		shiftUp(count);
	}

	///移除最大元素即根节点
	Item extractMax()
	{
		Item item = data[1];
		swap(data[1],data[count]);	//保证了还是完全二叉树
		count--;	//注意count--与执行shiftDown的先后次序
		shiftDown(1);
		return item;
	}

	///打印输出
	void printData()
	{
		cout<<"[";
		for(int i=1;i<=count;i++)
		{
			if(i==count)
				cout<<data[i];
			else
				cout<<data[i]<<",";
		}
		cout<<"]"<<endl;
	}


private:

	///将节点元素向上与父节点对比,移动到二叉树中的合适位置
	void shiftUp(int k)
	{
		while(k>1&&data[k/2]<data[k])	///叶子节点的父节点索引是k/2
		{
			swap(data[k/2],data[k]);
			k/=2;
		}
	}

	///将节点元素向下与子节点对比,移动到二叉树中的合适位置
	void shiftDown(int k)
	{
		while(count>=k*2)	//当前节点有子节点
		{
			int j = 2*k;	//与下层节点进行比较的索引值
			if(data[j+1]>data[j] && j+1<=count)
			{
				j++;	//子节点中较大值的索引
			}
			if(data[k]>=data[j])
				break;
			swap(data[k],data[j]);
			k=j;
		}
	}

	///判空
	bool isEmpty()
	{
		return count==0;
	}


private:

	///存储数据数组
	Item* data;

	///数据个数
	int count;

	///数组容量
	int capacity;


};

最大索引堆:

  当数据元素结构比较复杂时(比如字符串)或者在构建完堆后难以索引到某一元素的场景中(比如:优先队列),直接操作数据本身将会非常耗时,因此引入索引堆。与最大堆相似,只不过索引堆不再交换数组元素位置,而是直接使用元素的索引构建最大堆,将索引存在一个新的数组中。

  索引数组的加入避免了直接操作数据本身,但是又带来了新的问题:如果想要通过原数据数组中的索引操作数据,还需要取到对应堆中的索引,又要多一层循环(即遍历索引数组,找到indexes[i] = k),这样使得算法效率大幅降低。为了解决该问题,我们使用反向查找的思想,再加入一个索引数组的反向数组reverse,使得reverse[ index [ i ] ] = i,每次操作增加reverse数组的维护,这样在通过原数据数组索引进行查找数据时,通过reverse[k]可直接获得堆中的索引。

#pragma once
#include <cassert>
#include "SortTestHelper.h"

/************************************************************************/
/* 最大索引堆:在最大堆的基础上,如果数组中储存的元素结构非常复杂(比如字符串),那么进行数据元素操作时需要消耗非常多的系统资源,
	因此引入最大索引堆,使用索引数组来记录数组元素在二叉树中的位置,而真正的数据元素并不发生改变。
/************************************************************************/

using namespace std;

template<class Item>
class MaxIndexHeap
{
public:
	MaxIndexHeap(int capacity)
	{
		data = new Item[capacity+1];	//数据从[1]位置处开始存储,这样使得父节点索引为其叶子节点索引除以二向下取整
		indexes = new int[capacity+1];	
		reverse = new int[capacity+1];	//赋初值,因为数据元素的索引是从1开始的,所以reverse[i]=0表示当前索引不存在
		for(int i=0;i<=capacity;i++)
			reverse[i] = 0;
		this->capacity = capacity;
		count = 0;
	}

	/*在随机的完全二叉树中,叶子节点本身就是有序的(因为没有子节点,最大堆的要求是父节点大于子节点),
	只需要对所有的非叶子节点倒序执行shiftDown操作*/
	MaxIndexHeap(Item arr[],int size)
	{
		data = new Item[size+1];	//数据从[1]位置处开始存储,这样使得父节点索引为其叶子节点索引除以二向下取整
		indexes = new int[size+1];
		reverse = new int[size+1];	//赋初值,因为数据元素的索引是从1开始的,所以reverse[i]=0表示当前索引不存在
		for(int i=0;i<=size;i++)
			reverse[i] = 0;
		this->capacity = size;
		for(int i=0;i<=size;i++)
		{
			data[i+1] = arr[i];
			indexes[i+1] = i+1;
		}
		count = size;

		//SortTestHelper::printArr(data,11);
		//SortTestHelper::printArr(indexes,11);
		//SortTestHelper::printArr(reverse,11);

		for(int i=count/2;i>=1;i-- )//完全二叉树中,最后一个非叶子节点的索引为count/2
		{
			shiftDown(i);
		}
	}

	~MaxIndexHeap(void)
	{
		if(data)
		{
			delete[] data;
			data = nullptr;
		}
		if(indexes)
		{
			delete[] indexes;
			indexes = nullptr;
		}
		if(reverse)
		{
			delete[] reverse;
			reverse = nullptr;
		}
	}

	int size()
	{
		return count;
	}


	///插入元素
	void insert(int index,Item item)
	{
		assert(capacity>=count+1);
		assert(index<=capacity-1 && index>0);

		index+=1;	//对用户而言,索引还是从0开始的,向用户隐藏实现的细节(实际上数据是从索引1开始存储的)
		data[index] = item;
		indexes[count+1] = index;
		reverse[index] = count+1;
		count++;
		shiftUp(count);
	}

	///移除最大元素即根节点
	Item extractMax()
	{
		Item item = data[indexes[1]];
		swap(indexes[1],indexes[count]);	//保证了还是完全二叉树
		count--;	//注意count--与执行shiftDown的先后次序
		shiftDown(1);
		return item;
	}

	///从最大索引堆中取出堆顶元素索引
	int extractMaxIndex()
	{
		assert(count>0);
		int ret = indexes[1]-1;
		swap(indexes[1],indexes[count]);
		count--;
		shiftDown(1);
		return indexes[1]-1;
	}

	///获取最大索引堆的堆顶元素
	Item getMax()
	{
		assert(count>0);
		return data[indexes[1]];
	}

	///获取最大索引堆中的堆顶元素的索引
	int getMaxIndex()
	{
		assert(count>0);
		return indexes[1]-1;
	}

	///获取最大索引堆中索引为i的元素
	Item getItem(int i)
	{
		assert(i+1>=1 && i+1<=capacity);
		return data[i];
	}

	// 将最大索引堆中索引为i的元素修改为newItem
	void change( int i , Item newItem )
	{
		i += 1;
		data[i] = newItem;
		// 找到indexes[j] = i, j表示data[i]在堆中的位置
		// 之后shiftUp(j), 再shiftDown(j)
		//for( int j = 1 ; j <= count ; j ++ )
		//{
		//	if( indexes[j] == i )
		//	{
		//		shiftUp(j);
		//		shiftDown(j);
		//		return;
		//	}
		//}
		//使用反向数组进行优化
		shiftUp(reverse[i]);
		shiftDown(reverse[i])
	}

	///打印输出数据数组
	void printData()
	{
		cout<<"data: [";
		for(int i=0;i<=count;i++)
		{
			if(i==count)
				cout<<data[i];
			else
				cout<<data[i]<<",";
		}
		cout<<"]"<<endl;
	}

	///打印输出索引数组
	void printIndex()
	{
		cout<<"indexes: [";
		for(int i=0;i<=count;i++)
		{
			if(i==count)
				cout<<indexes[i];
			else
				cout<<indexes[i]<<",";
		}
		cout<<"]"<<endl;
	}

	///打印输出反向索引数组
	void printReverseIndexArr()
	{
		cout<<"reverses: [";
		for(int i=0;i<=count;i++)
		{
			if(i==count)
				cout<<reverse[i];
			else
				cout<<reverse[i]<<",";
		}
		cout<<"]"<<endl;
	}



private:

	///将插入的叶子节点移动到最大完全二叉树的合适位置中
	void shiftUp(int k)
	{
		while(k>1&&data[indexes[k/2]]<data[indexes[k]])	///叶子节点的父节点索引是k/2
		{
			swap(indexes[k/2],indexes[k]);
			reverse[indexes[k/2]]=k/2;
			reverse[indexes[k]]=k;
			k/=2;
		}
		std::cout<<"***";
		SortTestHelper::printArr(reverse,11);

	}

	///将节点元素向下与子节点对比,移动到二叉树中的合适位置
	void shiftDown(int k)
	{
		while(count>=k*2)	//当前节点有子节点(第一个叶子节点的索引值为count/2+1)
		{
			int j = 2*k;	//与下层节点进行比较的索引值
			if(j+1<=count && data[indexes[j+1]]>data[indexes[j]])
			{
				j++;	//子节点中较大值的索引
			}
			if(data[indexes[k]]>=data[indexes[j]])
				break;
			swap(indexes[k],indexes[j]);
			reverse[indexes[k]] = k;
			reverse[indexes[j]] = j;
			k=j;
		}
	}

	///判空
	bool isEmpty()
	{
		return count==0;
	}


private:

	///存储数据数组
	Item* data;

	///索引数组
	int* indexes;	//indexes[i]表示数据元素的索引,i表示最大二叉树中的索引

	///反向索引数组(为了提高检索的算法效率)
	int* reverse;	// reverse[i]表示索引数组索引,i表示索引数组元素

	///数据个数
	int count;

	///数组容量
	int capacity;


};

总结

  通过引入索引数组和反向数组,堆排序的效率虽然略低于快速排序,但在处理从N个元素中选取出top M个元素的问题时,他的效率是O(NlogM)级别的,且在处理优先队列类似问题时非常有用。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值