3亿(int)数据-2亿(int)数据求差集

最新推荐文章于 2022-05-23 19:51:12 发布

lceBear

最新推荐文章于 2022-05-23 19:51:12 发布

阅读量119

点赞数

文章标签：数据库运维大数据

原文链接：http://www.cnblogs.com/zihunqingxin/p/7338168.html

版权

两个大文本,每行一条int数据

3亿(int)数据-2亿(int)数据求差集

原始(粗暴)办法

1redis set 或类似方案
本地内存 cpu都撑不住

2持久化两张表 sql join
mysql join是两层暴力for的性能太差,还是单线程的
sqlserver 三种join方式,1两层for,2有序列优化join,3 hash join,该场景可用有序列进行join(int型数 hash join没啥意义),性能远胜两层暴力for,另外sqlserver多线程计算优化
orcal 和sqlserver类似细节或有区别,不是很熟悉,反正比mysql强

3 sql insert文本1,遍历文本2 update 再select

sqlserver 本机mac需要 https://hub.docker.com/r/microsoft/mssql-server-linux

4hadoop map/reduce 本身自带sort,说到底和sqlserver join原理差不多,同时用到了多机,多进程/线程

4linux命令 grep sort 之类

5bitmap

直接用redis 作位运算代码都不用写多少

大量int型数据，交差并都都优先考虑bitmap

用redis的 bit 有位数限制

offset 参数必须大于或等于 0 ，小于 2^32 (bit 映射被限制在 512 MB 之内)。

单key放不下,就多用几个

redis [key] = val/(2^32)

[key] [offset] = val%(2^32)

setbit [key] [offset] 1

转载于:https://www.cnblogs.com/zihunqingxin/p/7338168.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lceBear

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
3亿(int)数据-2亿(int)数据求差集

两个大文本,每行一条int数据3亿(int)数据-2亿(int)数据求差集原始(粗暴)办法1redis set 或类似方案本地内存 cpu都撑不住2持久化两张表 sql join mysql join是两层暴力for的性能太差,还是单线程的sqlserver 三种join方式,1两层for,2有序列优化join,3 hash join,该场景可用有序列进行join(int型...
复制链接

扫一扫