php识别文件编码,并读出内容,对大文件也很有效率



<?php

    /**
     * 检测文件编码
     * @param string $file_path 文件路径
     * @return string $filesize 默认为空,获取文件的全部内容,如果仅需要获取文件编码类型,获取前一百个字符即可,配合detect_encoding方法使用
     * @return string 返回文件内容,自动换行
     */
    
    function fileToSrting($file_path, $filesize = '') {
        //判断文件路径中是否含有中文,如果有,那就对路径进行转码,如此才能识别
        if (preg_match("/[\x7f-\xff]/", $file_path)) {
            $file_path = iconv('UTF-8', 'GBK', $file_path);
        }
        if (file_exists($file_path)) {
            $fp = fopen($file_path, "r");
            if ($filesize === '') {
                $filesize = filesize($file_path);
            }
            $str = fread($fp, $filesize); //指定读取大小,这里默认把整个文件内容读取出来
            return $str = str_replace("\r\n", "<br />", $str);
        } else {
            die('文件路径错误!');
        }
    }
    
    /**
     * 获取文件编码类型
     * @param  string $file_path    文件路径
     * @param  string $filesize     需要获取的字符长度
     * @return string               返回字符编码
     */
    function detect_encoding($file_path, $filesize = '1000') {
        $list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1');
        $str = fileToSrting($file_path, $filesize);
        foreach ($list as $item) {
            $tmp = mb_convert_encoding($str, $item, $item);
            if (md5($tmp) == md5($str)) {
                return $item;
            }
        }
        return '遇到识别不出来的编码!';
    }
    /**
     * 自动解析编码读入文件
     * @param string $file_path 文件路径
     * @param string $charset 读取编码
     * @return string 返回读取内容
     */
    function auto_read($file_path, $filesize = '', $charset = 'UTF-8') {
        $list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1');
        $str = fileToSrting($file_path, $filesize);
        foreach ($list as $item) {
            $tmp = mb_convert_encoding($str, $item, $item);
            if (md5($tmp) == md5($str)) {
                return mb_convert_encoding($str, $charset, $item);
            }
        }
        return "";
    }
    
    $file_path = "鸟哥的linux私房菜第二版包括基础和服务器.chm";
    echo "<pre>";
    $time1 = microtime(true);
    print_r(detect_encoding($file_path, 10));
    $time2 = microtime(true);
    printf("识别编码时间为:%s 秒 \n", $time2 - $time1);
    exit;
    
    echo "\n";
    echo "\n";
    echo "\n";
    echo "\n";
    print_r(auto_read($file));
    echo "</pre>";
    $time3 = microtime(true);
    printf("将文件读出到字符串时间为:%s 秒 \n", $time3 - $time2);
    exit;

原文:https://blog.csdn.net/zhezhebie/article/details/72732453

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值