大数据-排序、查重、第k大

最新推荐文章于 2022-09-22 17:31:33 发布

VIP文章 Kevin照墨

最新推荐文章于 2022-09-22 17:31:33 发布

阅读量481

点赞数

分类专栏：分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/justkian/article/details/104879268

版权

1. 排序、top k

含有重复值：桶排序（将数据映射到有序桶中），每个桶再进行排序。其次还可以结合堆来实现 top k
不含重复值：直接使用BitMap来做，每一个bit位都代表一个数字，比如若数字为 32，就可以有bitSet.set(32)，代表第32个bit位上有数字。——可以推出，16亿数字只会消耗 16*10^9个bit，即只会占用2G空间

2. 包含统计信息的排序、top k

【举个例子：有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。】

解决思路：
1. 设计M个桶（文件）——split
2. 依次读取1M的数据，然后按 hash(word) % M 进行映射——partition
3. 依次读取每一个桶的数据入内存，进行合并统计——merge、count
4. 如果发现桶的数据量太大，则对该桶进一步分割（递归走步骤 1 到 4）——递归
5. 直到统计完毕，每个桶中都读取前k（100）个词进内存，然后进行top k （小顶堆）

【再举个例子：包含200亿的int数据，内存限制100MB，不准写外存，寻找中位数】

解决思路：这个就有点特殊了࿰

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
大数据-排序、查重、第k大

1. 排序、top k含有重复值：桶排序（将数据映射到有序桶中），每个桶再进行排序。其次还可以结合堆来实现 top k不含重复值：直接使用BitMap来做，每一个bit位都代表一个数字，比如若数字为 32，就可以有bitSet.set(32)，代表第32个bit位上有数字。——可以推出，16亿数字只会消耗 16*10^9个bit，即只会占用2G空间2. 包含统计信息的排序、top k...
复制链接

扫一扫

专栏目录

Kevin照墨 CSDN认证博客专家 CSDN认证企业博客

码龄8年

86: 原创

25万+: 周排名

77万+: 总排名

9万+: 访问

: 等级

1703: 积分

20: 粉丝

39: 获赞

9: 评论

208: 收藏

私信

关注

热门文章

分类专栏

最新评论

深入理解有状态和无状态以及JWT和Session
Starry Sky001: 写得还可以
深入理解有状态和无状态以及JWT和Session
十一月de嚣张: 我也是感觉这篇文章错误挺多..
深入理解有状态和无状态以及JWT和Session
mrtuzi1: 不知道是文章久远了，还是我理解有误，在我看来jwt一出现，就完全可以取代session了。 1、在登录时用uid+login_time+FingerprintJS 制造一个token，存放到数据库或redis里，登录后有请求先验证token，如果不对，肯定是换设备或重新登录了。只要uid+login_time+FingerprintJS 三项没有变动，token还是原来的token。可以控制产生新的登录操作时，才更新token。 3、token时间到了，用户也得被迫重新登录，这是肯定的，但可以设置token一百年以后失效或者，干脆不设置失效时间 4、因为Token未过期，人家还是可以使用？在新设备登录以后，旧的token就被替换了。还用旧的token访问，只能被无情的提示：请重新登录。 5、我们只需要验证用户的真身，所以在整个请求体内，只要有uid和token就OK了，就解决内容过长和敏感数据的问题了。
JVM——内存结构和对象的创建、布局、定位
ctotalk: 感谢分享，学以致用。
回归算法——Logistics回归、Log对数损失（交叉熵损失）
xiaotian127: 可以可以，终于清楚的搞明白了为啥损失函数是对数形式了，原来是通过最大似然估计推导出来的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。