文件编码的判定（UTF8,UTF16），及转换

最新推荐文章于 2023-11-29 10:38:17 发布

iteye_15968

最新推荐文章于 2023-11-29 10:38:17 发布

阅读量353

点赞数

文章标签： C C++ C# .net Blog

1.首先根据BOM来判定

UTF-8的BOM： EF BB BF；对应的十进制数值是：239 187 191 如果文件的开头三个字节与之相符则说明文件的编码是UTF8的

UTF-16LE的BOM： FF FE；对应的十进制数值是： 255 254 如果文件的开头两个字节与之相符则说明对应的编码是UTF-16LE

UTF-16BE的BOM： FE FF ；对应的十进制数值是：254 255 如果文件的开头两个字节与之相符则说明对应的编码是UTF-16BE

2.BOM不存在的情况判定

UTF-8的判定，根据内容判定

UTF-8的编码规则：

字符字节长度标志字节值

一字节长 0XXXXXXX

两字节长 110XXXXX 10XXXXXX

三字节长 1110XXXX 10XXXXXX 10XXXXXX

四字节长 11110XXX 10XXXXXX 10XXXXXX 10XXXXXX

**标志字节判定用到的数据**

定义数组btHead 长度为4保存用来判定标志字节的十进制数值： 0，192， 224， 240

定义数组btBitAndValue 长度为4保存用来得到标志字节长度的十进制数值：128： 224， 240， 248

**值判定用到的数据**

定义变量btValueHead用来保存值得标志所对应的十进制数值：128

定义变量btFixValueAnd 保存用来取得值的标志的十进制数值：192

a.以字节方式读取文件中内容保存到字节数组中

b.对a中读取的文件内容做loop操作。

首先对当前的字节分别与btBitAndValue中的四个值进行位与操作，每次得到的值与btHead中的值比较，找到相等的值时可以根据当前的值来判定字符的字节长度L。并执行下一个循环，在跳过b的操作次数（L - 1）次时在执行b操作

c.取得值的标志。将此致的值与btFixValueAnd进行位与操作，将取得的值与btValueHead进行比较，如果相等则对下一个字节继续执行c操作，直到执行的次数是L-1次。如果不相等则说明不是UTF-8编码格式。

UTF-16的判定与UTF-8的判定类似只要知道编码规则就可以。

3. 文字Code的转换操作

转换操作用到的API：

多字节转宽字节：MultiByteToWideChar

宽字节转多字节：WideCharToMultiByte

MSDN有详细参数说明。

具体步骤：首先判定要保存转换结果字符串的长度，相应参数设定成固定的值便可以得到。

其次，根据得到的长度分配存储变量

最后，进行转换。

注意分配的内存释放问题。

本文来自CSDN博客，转载请标明出处：http://blog.csdn.net/yinzhiqing/archive/2009/11/18/4825789.aspx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。