- 博客(1)
- 收藏
- 关注
原创 有1千万条重复的短信,以文本的形式保存,一行一条,也有重复,请用5分钟时间找出重复最多的前10条短信
采用内存映射办法。首先,1千万条短信按现在的短息长度将不会超过1GB空间,使用内存映射文件比较合适,可以一次映射 (如果有更大的数据量,可以采用分段映射),由于不需要频繁使用文件I/O和频繁分配小内存,这将大大提高了数据的加载速度。其次,对每条短信的第i(i从0到70)个字母按ASCII码进行分组,也就是创建树。i是 树的深度,也是短信第个字母。这个问题主要是解决两方面的问题:
2016-02-25 15:01:40 2873
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人