top K 问题

最新推荐文章于 2022-04-27 13:19:14 发布

afa7666

最新推荐文章于 2022-04-27 13:19:14 发布

阅读量123

点赞数

文章标签：数据结构与算法 java

原文链接：http://www.cnblogs.com/Mr24/p/6693575.html

版权

　　在海量数据中找出出现频率最高的前K个数，或者从海量数据中找出最大的前K个数，这类问题被称为top K问题，例如搜索引擎中，同济最热门的10个查询词，在歌曲库中统计下载量频率最高的前10个数据。

　　针对这类问题，通常比较好的方案是分治+Trie树/hash+小顶堆，即将数据集按照hash方法分解成多个小数据集，然后使用Trie树或者hash统计每个小数据集中的query词频，之后用小顶堆求出每个数据集中出现频率最高的前K个数，最后在所有的top K中求出最终的top K。

　　例如，1亿个浮点数，如何找出最大的10000个？

1.快速排序

　　最容易想到的方法是将数据全部排序，然后在排序后的集合中进行查找，最快的排序算法的时间复杂度一般为O（nlogn），如快速排序。但是在32位的机器上，每个float类型占4个字节，1亿个浮点数就要占用400MB的存储空间，对于一些可用内存小于400M的计算机而言，很显然是不能一次将全部数据读入内存进行排序的。其实即使内存能够满足要求，该方法也并不高效，因为题目的目的是寻找出最大的10000个数即可，而排序却是将所有的元素都排序了，做了很多的无用功。

2.局部淘汰法

　　该方法与排序方法类似，用一个容器保存前10000个数，然后将剩余的所有数字——与容器内的最小数字相比，如果所有后续的元素都比容器内的10000个数还小，那么容器内这个10000个数就是最大10000个数。如果某一后续元素比容器内最小数字大，则删掉容器内最小元素，并将该元素插入容器，最后遍历完这1亿个数，得到的结果容器中保存的数即为最终结果了。此时的时间复杂度为O（n+m*m），其中m为容器的大小，即10000。

3.分治法

　　将1亿个数据分为100份，每一份包含100万个数据，找出每份数据中最大的10000个，最后在剩下的100*10000个数据中找出最大的10000个。如果100万数据选取的足够理想，那么可以过来掉99%的数据。

　　100万个数据中找出最大的10000个，继续对大堆快速排序一次分成两堆，如果大堆个数N大于10000，继续对大堆快排一次分成两堆，如果大堆的个数N小于10000，就在小的那堆里快速排序一次，找到第10000-n大的数字，递归进行上述的过程，就可以找到第10000大的数字。这种方法每次需要的内存空间是100万*4 = 4M，一共需要101次比较。

4.hash法

　　如果1亿个数里面有很多重复的数，先通过hash法，把这1亿个数字去重复，如果重复率高的话，会减少很大的内存用量，从而缩小运算空间，然后通过分治或者最小堆法进行。

5.最小堆

　　先读入前10000个数来创建大小为10000的小顶堆，建堆的时间复杂度为O(mlogm)（m是数组的大小，即为10000），然后遍历后续的数字，并与堆顶（堆顶的数值最小）进行比较，如果比堆顶小，则继续读取后续的数字，如果比堆顶大，则替换堆顶元素并重新调整堆为最小堆。整个过程直至1亿的数全部变量完为止，然后按照中序遍历的方式输出当前堆中所有10000个数字，该算法的时间复杂度为O(nmlogm)，空间复杂度是10000。

重复问题

　　使用位图法对8位电话号码进行统计和排序。

package _9_3;

import java.util.Random;

public class Test
{
	int ARRNUM = 10000;
	int mmin = 10000000;
	int mmax = 99999999;
	int N = mmax - mmin + 1;
	int BITS_PER_WORD = 32;
	
	//找出放在第几个bit
	int WORD_OFFSET(int b)
	{
		return b/BITS_PER_WORD;
	}
	
	//计算出应该存在第几位
	int BIT_OFFSET(int b)
	{
		return b%BITS_PER_WORD;
	}
	
	//置为1
	void SetBit(int[] words, int n)
	{
		n -= mmin;
		words[WORD_OFFSET(n)] |= (1<<BIT_OFFSET(n));
	}
	
	//清零
	void ClearBit(int[] words, int n)
	{
		words[WORD_OFFSET(n)] &= ~(1<<BIT_OFFSET(n));
	}
	
	//获得对应的值
	boolean GetBit(int[] words, int n)
	{
		int bit = words[WORD_OFFSET(n)]&(1<<BIT_OFFSET(n));
		return bit != 0;
	}
	
	public void sort()
	{
		int i,j;
		int arr[] = new int[ARRNUM];
		System.out.println("数组大小：" + ARRNUM);
		//用来存放位图，每一位对应mmin到mmax范围内的一个数
		int[] words = new int[1 + N/BITS_PER_WORD];
		int count = 0;
		Random r = new Random();
		
		//生成100个随机数存放在数组arr中
		for(j = 0; j < ARRNUM; j++)
		{
			arr[j] = r.nextInt(N);
			arr[j] += mmin;
			System.out.println(arr[j] + " ");
		}
		System.out.println();
		
		for(j = 0; j < ARRNUM; j++)
		{
			SetBit(words, arr[j]);
		}
		System.out.println("排序后的a为：");
		
		for(i = 0; i < N; i++)
		{
			if(GetBit(words, i))
			{
				System.out.println(i + mmin + " ");
				count++;
			}
		}
		System.out.println();
		System.out.println("总个数为：" + count);
	}

	public static void main(String[] args)
	{
		new Test().sort();
	}
}