判断中文文本是否为utf8编码类型的JavaScript实现

最新推荐文章于 2023-07-23 15:30:03 发布

qq_43376332

最新推荐文章于 2023-07-23 15:30:03 发布

阅读量4.1k

点赞数

分类专栏： JavaScript 文章标签： JavaScript 编码类型 UTF-8 GBK 文本文件

本文链接：https://blog.csdn.net/qq_43376332/article/details/89603158

版权

JavaScript 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

判断中文文本是否为utf8编码类型的JavaScript实现

原理

常用汉字的unicode编码范围为4E00-9FA5，此范围被包含于UTF-8 3字节编码范围内。
故若文本由UTF-8编码时，一个汉字将由三个字节组成。
而这三个字节的第一个的范围将为：1110 0100 - 1110 1001。
使用FileReader.readAsBinaryString()读取文件，结果为由每个字节的二进制数据转换为unicode组成的字符串。
所以需要检查结果中含有1110 0100 - 1110 1001这个范围内的字符的比例就可以判断文本编码类型是否为UTF-8。

function isUtf8(s) {
	var lastnames = new Array("ä", "å", "æ", "ç", "è", "é");
	var count=0;
	for (var i = 0; i < lastnames.length; i++) {
		count+=s.split(lastnames[i]).length;
	}
	if(count>s.length/5){
		return true;
	}else{
		return false;
	}
}

参考资料

Github

https://github.com/ztxtxwd/IsUtf8Js

qq_43376332

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
判断中文文本是否为utf8编码类型的JavaScript实现

判断中文文本是否为utf8编码类型的JavaScript实现原理参考资料Github原理常用汉字的unicode编码范围为4E00-9FA5，此范围被包含于UTF-8 3字节编码范围内。故若文本由UTF-8编码时，一个汉字将由三个字节组成。而这三个字节的第一个的范围将为：1110 0100 - 1110 1001。使用FileReader.readAsBinaryString()读取文件...
复制链接

扫一扫