Windows 10 的1.txt记事本默认类型为ANSI: ANSI=>GBK,Unicode=>UTF-16LE,UTF-8=>UTF-8
ANSI类型的,默认还带BOM头,file_get_contents读出来开头会有特殊字符,所以一般选择上传文件选择UTF-8类型的文件去上传。
/**
* 检测文件编码类型
* @param string $file 文件路径
* @return string|null 返回 编码名 或 null;
*/
public static function detect_encoding($file) {
$list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1', 'GB2312');
$str = file_get_contents($file);
foreach ($list as $item) {
$tmp = mb_convert_encoding($str, $item, $item);
if (md5($tmp) == md5($str)) {
return $item;
}
}
return null;
}
/**
* 自动解析编码读入文件
* @param string $file 文件路径
* @param string $charset 读取编码
* @return string 返回读取内容
*/
public static function auto_convert_encoding($file, $charset='UTF-8') {
$list = array('GBK', 'UTF-8', 'UTF-16LE', 'UTF-16BE', 'ISO-8859-1', 'GB2312');
$str = file_get_contents($file);
foreach ($list as $item) {
$tmp = mb_convert_encoding($str, $item, $item);
if (md5($tmp) == md5($str)) {
return mb_convert_encoding($str, $charset, $item);
}
}
return '';
}
参考:Link
文件编码解读:Link