文件编码的判定(UTF8,UTF16),及转换

 
 1.首先根据BOM来判定

    UTF-8的BOM:   EF BB BF; 对应的十进制数值是:239 187 191 如果文件的开头三个字节与之相符则说明文件的编码是UTF8的

    UTF-16LE的BOM: FF FE;   对应的十进制数值是: 255 254  如果文件的开头两个字节与之相符则说明对应的编码是UTF-16LE

    UTF-16BE的BOM: FE FF ;   对应的十进制数值是:254  255 如果文件的开头两个字节与之相符则说明对应的编码是UTF-16BE

  2.BOM不存在的情况判定

    UTF-8的判定,根据内容判定

        UTF-8的编码规则:

                   字符字节长度        标志字节        值

                     一字节长            0XXXXXXX

                     两字节长            110XXXXX  10XXXXXX

                     三字节长            1110XXXX  10XXXXXX 10XXXXXX

                     四字节长            11110XXX  10XXXXXX 10XXXXXX 10XXXXXX

        **标志字节判定用到的数据**

        定义数组btHead 长度为4保存用来判定标志字节的十进制数值: 0,192, 224, 240

        定义数组btBitAndValue 长度为4保存用来得到标志字节长度的十进制数值:128: 224, 240, 248

        **值判定用到的数据**

        定义变量btValueHead用来保存值得标志所对应的十进制数值:128

        定义变量btFixValueAnd 保存用来取得值的标志的十进制数值:192

        a.以字节方式读取文件中内容保存到字节数组中

        b.对a中读取的文件内容做loop操作。

           首先对当前的字节分别与btBitAndValue中的四个值进行位与操作,每次得到的值与btHead中的值比较,找到相等的值时可以根据当前的   值来判定字符的字节长度L。并执行下一个循环,在跳过b的操作次数(L - 1)次时在执行b操作

        c.取得值的标志。 将此致的值与btFixValueAnd进行位与操作,将取得的值与btValueHead进行比较,如果相等则对下一个字节继续执行c操作,直到执行的次数是L-1次。如果不相等则说明不是UTF-8编码格式。

   UTF-16的判定与UTF-8的判定类似只要知道编码规则就可以。

 3. 文字Code的转换操作

     转换操作用到的API:

                 多字节转宽字节:MultiByteToWideChar

                 宽字节转多字节:WideCharToMultiByte

                 MSDN有详细参数说明。

      具体步骤:  首先判定要保存转换结果字符串的长度,相应参数设定成固定的值便可以得到。

                     其次,根据得到的长度分配存储变量

                     最后,进行转换。

                     注意分配的内存释放问题。


本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/yinzhiqing/archive/2009/11/18/4825789.aspx

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值