海量数据处理

需求:
在两个不同的数据库实例里的两张不同的表中找出近5个月内,account_id字段下相同的数据。
一张表数量级百万行,另一张表千万行。

分析:
因为是在不同实例下,所以不能直接在数据库里操作,要通过脚本来,本次使用php。
要先从两张表里把所需要的数据查找出来,这里要用原生的PDO,利用query,为什么呢要用原生的pdo呢,因为一些框架封装好的pdo是把数据都存放在数组中,但是海量的数据存在数组中,肯定是不行的。而用query,返回的数据集是 PDOStatement类型,这是迭代器的接口实现。其中还要注意,要取消掉缓存结果集,$pdo->setAttribute(PDO::MYSQL_ATTR_USE_BUFFERED_QUERY, false)。这样能大大提高效率。以上说的可以参考两个文章:
php处理大数据
php导出mysql大数据
有个问题,query只能执行一条sql,执行完要将其取出来或是释放资源,这样的话,解决方法是开两个pdo。

将返回的数据集通过算法分到不同的文件下。

 ini_set('max_execution_time', '0');

        $sqlWeb = "select 语句";
        $pdoWeb = new \PDO('mysql:host=*;dbname=*', '*', '*');
        $pdoWeb->setAttribute(\PDO::MYSQL_ATTR_USE_BUFFERED_QUERY, false);
        $rowsWeb = $pdoWeb->query($sqlWeb);


        foreach ($rowsWeb as $row) {

            $cat = $this->myHash($row['account_id']);
            file_put_contents(base_path() . '/datafile/web/temp_pc' . $cat . '.txt', $row['account_id'] . PHP_EOL, FILE_APPEND);



        }

这边用的文件划分算法是:通过计算每个数据的每个字符的ascii码的大小+5000,然后%1000,最终结果觉得被划分到哪个文件。
`public function myHash($key)
{

    $len = strlen($key);
    //key中每个字符所对应的ASCII的值
    $asciiTotal = 0;

    for ($i = 0; $i < $len; $i++) {
        $asciiTotal += ord($key[$i]) + 5000;
    }

    return $asciiTotal % 1000;

}`

最后将文件中的数据通过迭代器来进行遍历。

   public function fileWebAll($file)
    {
        ini_set('max_execution_time', '0');

        $handle=@fopen($file,'r');
        if(!$handle){
            throw new Exception("Can not read file!");
        }

        while(($line=fgets($handle))!==false){
            yield $line;
        }

        if (!feof($handle)) {
            throw new Exception('Error: unexpected fgets() fail');
        }
        fclose($handle);
        return ;
    }
这里写代码片
 public function fileHandle()
    {
        ini_set('max_execution_time', '0');

        for ($i = 105;$i<444;$i++){
            $filePc = base_path()."/datafile/pc/temp_pc".$i.".txt";
            $fileWeb = base_path()."/datafile/web/temp_pc".$i.".txt";
            if(file_exists($filePc)&&file_exists($fileWeb)){
                foreach ($this->filePcAll($filePc) as $rowPc){
                    foreach ($this->fileWebAll($fileWeb) as $rowWeb){
                        if($rowPc===$rowWeb){
                            file_put_contents(base_path().'/datafile/same.txt',$rowWeb,FILE_APPEND);
                            break;
                        }
                    }
                }
            }
        }

    }

一些相关的引用文章
php处理海量数据
这里写链接内容
php生成器
php maximum execution time
query 怎么不耗内存

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值