上亿条数据(GB级)文件去重解决方案

1.准备待处理的文件

这里写图片描述

2.随便一个文件都有100000000条数据库,如果直接去重非常麻烦

这里写图片描述

3.一段php代码解决问题

define('FileIn', $argv[1]);
$time_start = microtime(true);
$count = 0;


function dump($data){
    echo "<pre>";
    var_dump($data);
    echo "</pre>";
    die();
}


function order_ByF(){
    $list = fopen(FileIn, "r");
    while(! feof($list)){
        $line= fgets($list);
        $index = substr($line, 0, 1);
        /*file_put_contents("OutData/{$index}.txt",$line.PHP_EOL,FILE_APPEND);*/
        file_put_contents("OutData/{$index}.txt",$line,FILE_APPEND);
        $count++;
        echo "{$count}:{$index}:{$line}";
    }
}


order_ByF();

4.使用方法

#php orderByF.php s.txt

5.使用后会按首字母生成多个文件,然后再按每个单独的文件去重

这里写图片描述

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值