面试题
**背景:**面对后端多服务得场景下,我们需要对每个服务器得一些资源指标进行监控,比如服务器的cpu、内存、磁盘、端口;nginx前端的传输速度;客户端每个访问请求得时间。
**问题:**假如有1000台服务器,每台服务器有10000个请求得访问时间统计比如有10ms、20ms的访问速度的用户,那么怎么找到所有数据中80分位的访问速度呢?
**答:**1、最慢的显然是串行遍历所有的数据,进行从小到大排序找到排在第800000大小的数字。
2、取每个服务器上前百分20的数据,然后再合起来进行排序。
前百分20的数据可以有几个方法取:
- 使用快排的思想,每次都会将数据分成一半,然后一直对右半部分进行快排,直到找到第百分80大的那个数,然后就能对遍历整个数据找出比他大的数。
- 冒泡排序。一直冒泡直到排序到80分位置。
- 插入排序。
- 堆排序。维持一个百分之20数组大小的大根堆。
在找到每台服务器上前20分位的数后再进行一个排序,然后找到。
当然这也存在一种问题,当存在一种极端的情况下,一个服务器用户访问速度很慢,其他的很快,就会出现数据不均衡的问题,那以上办法就没法使用了。 - 计数排序。
3、多路归并
- 首先建立一个小顶堆;
- 将每一路的最小元素都加入小顶堆中,此时堆顶就是100路中全局的最小值;
- 将堆顶元素弹出,并将堆顶元素所在数组的下一个元素加入堆中。
- 重复第2)和第3)步,直至读取到百分20的数据。