top K 问题

  

  在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题被称为top K问题,例如搜索引擎中,同济最热门的10个查询词,在歌曲库中统计下载量频率最高的前10个数据。

  针对这类问题,通常比较好的方案是分治+Trie树/hash+小顶堆,即将数据集按照hash方法分解成多个小数据集,然后使用Trie树或者hash统计每个小数据集中的query词频,之后用小顶堆求出每个数据集中出现频率最高的前K个数,最后在所有的top K中求出最终的top K。

  例如,1亿个浮点数,如何找出最大的10000个?

1.快速排序

  最容易想到的方法是将数据全部排序,然后在排序后的集合中进行查找,最快的排序算法的时间复杂度一般为O(nlogn),如快速排序。但是在32位的机器上,每个float类型占4个字节,1亿个浮点数就要占用400MB的存储空间,对于一些可用内存小于400M的计算机而言,很显然是不能一次将全部数据读入内存进行排序的。其实即使内存能够满足要求,该方法也并不高效,因为题目的目的是寻找出最大的10000个数即可,而排序却是将所有的元素都排序了,做了很多的无用功。

 

2.局部淘汰法

  该方法与排序方法类似,用一个容器保存前10000个数,然后将剩余的所有数字——与容器内的最小数字相比,如果所有后续的元素都比容器内的10000个数还小,那么容器内这个10000个数就是最大10000个数。如果某一后续元素比容器内最小数字大,则删掉容器内最小元素,并将该元素插入容器,最后遍历完这1亿个数,得到的结果容器中保存的数即为最终结果了。此时的时间复杂度为O(n+m*m),其中m为容器的大小,即10000。

 

3.分治法

  将1亿个数据分为100份,每一份包含100万个数据,找出每份数据中最大的10000个,最后在剩下的100*10000个数据中找出最大的10000个。如果100万数据选取的足够理想,那么可以过来掉99%的数据。

  100万个数据中找出最大的10000个,继续对大堆快速排序一次分成两堆,如果大堆个数N大于10000,继续对大堆快排一次分成两堆,如果大堆的个数N小于10000,就在小的那堆里快速排序一次,找到第10000-n大的数字,递归进行上述的过程,就可以找到第10000大的数字。这种方法每次需要的内存空间是100万*4 = 4M,一共需要101次比较。

 

4.hash法

  如果1亿个数里面有很多重复的数,先通过hash法,把这1亿个数字去重复,如果重复率高的话,会减少很大的内存用量,从而缩小运算空间,然后通过分治或者最小堆法进行。

 

5.最小堆

  先读入前10000个数来创建大小为10000的小顶堆,建堆的时间复杂度为O(mlogm)(m是数组的大小,即为10000),然后遍历后续的数字,并与堆顶(堆顶的数值最小)进行比较,如果比堆顶小,则继续读取后续的数字,如果比堆顶大,则替换堆顶元素并重新调整堆为最小堆。整个过程直至1亿的数全部变量完为止,然后按照中序遍历的方式输出当前堆中所有10000个数字,该算法的时间复杂度为O(nmlogm),空间复杂度是10000。

 

 

重复问题

  使用位图法对8位电话号码进行统计和排序。

package _9_3;

import java.util.Random;

public class Test
{
	int ARRNUM = 10000;
	int mmin = 10000000;
	int mmax = 99999999;
	int N = mmax - mmin + 1;
	int BITS_PER_WORD = 32;
	
	//找出放在第几个bit
	int WORD_OFFSET(int b)
	{
		return b/BITS_PER_WORD;
	}
	
	//计算出应该存在第几位
	int BIT_OFFSET(int b)
	{
		return b%BITS_PER_WORD;
	}
	
	//置为1
	void SetBit(int[] words, int n)
	{
		n -= mmin;
		words[WORD_OFFSET(n)] |= (1<<BIT_OFFSET(n));
	}
	
	//清零
	void ClearBit(int[] words, int n)
	{
		words[WORD_OFFSET(n)] &= ~(1<<BIT_OFFSET(n));
	}
	
	//获得对应的值
	boolean GetBit(int[] words, int n)
	{
		int bit = words[WORD_OFFSET(n)]&(1<<BIT_OFFSET(n));
		return bit != 0;
	}
	
	public void sort()
	{
		int i,j;
		int arr[] = new int[ARRNUM];
		System.out.println("数组大小:" + ARRNUM);
		//用来存放位图,每一位对应mmin到mmax范围内的一个数
		int[] words = new int[1 + N/BITS_PER_WORD];
		int count = 0;
		Random r = new Random();
		
		//生成100个随机数存放在数组arr中
		for(j = 0; j < ARRNUM; j++)
		{
			arr[j] = r.nextInt(N);
			arr[j] += mmin;
			System.out.println(arr[j] + " ");
		}
		System.out.println();
		
		for(j = 0; j < ARRNUM; j++)
		{
			SetBit(words, arr[j]);
		}
		System.out.println("排序后的a为:");
		
		for(i = 0; i < N; i++)
		{
			if(GetBit(words, i))
			{
				System.out.println(i + mmin + " ");
				count++;
			}
		}
		System.out.println();
		System.out.println("总个数为:" + count);
	}

	public static void main(String[] args)
	{
		new Test().sort();
	}
}

  

 

 

转载于:https://www.cnblogs.com/Mr24/p/6693575.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值