不重复ip问题

针对一个1G大小的IP地址文件,提出了多种去除重复IP的方案:包括一次性加载到内存、分批使用mmap、逐行读取;去重方法涉及使用集合set、分批hash、MapReduce、布隆过滤器和字典树等技术。
摘要由CSDN通过智能技术生成

问题:

有一个文本文件,1G大小,每一行是IP地址,有重复的IP,要求快速的删除重复IP,将不重复的IP写到一个新文件中。

回答:

读取文件:
1. 读入整个文件(Java 标准读入方式)【前提:内存足够大】
2. 分批次读入文件(mmap)

        File file = new File(PATH);
        RandomAccessFile randomAccessFile = new RandomAccessFile(PATH, "r");
        MappedByteBuffer buff = null;
        long file_size = file.length();
        long rows = file_size / num;
        int total = num + (file_size % num == 0 ? 0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值