- 博客(1)
- 资源 (8)
- 收藏
- 关注
原创 大文件去重
01.项目中涉及到50亿+的数据去重操作,大概的情景就是一个超大文件(200G+),文件中的数据为每行是一个字符串,现在要求对字符串进行去重操作,重新生成文件02.显然内存不足于容纳文件的大小,即使容纳的话你会这么做么 :) 。一般而言对于这种超大文件去重都会采用外部排序将相同的数据对排在一起,然后再进行去重操作。如果你对 shell 命令熟悉的话,相信你会很快想到 sort | u...
2018-07-25 18:47:49 6781 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人