字符串与编码 汇总 概述

这几个月作手机短信的项目,碰到了很多字符编码的问题,真头痛。经过多番资料的搜索、亲手尝试和高人的指点,现在好像没那么迷惘了。现作了一些总结跟大家分享(有误之处请指点)

  首先应该把字节数组看成是String的载体。
  dot Net使用的字符串String是Unicode编码的;它也是以Unicode编码的形式显示字符串。

  以下是用自己语言对几个常用函数的说明:
  (自己总结的,反正看不明MSDN)
  bytes=System.Text.Encoding.Unicode.GetBytes(str)
  作用:把str的载体作Unicode->Unicode的编码转换--也就是没有对载体作任何的转换。因些使用此函数可以得代表该String载体的字节数组。
  str=System.Text.Encoding.Unicode.GetString(bytes)
  作用:对字节数组作Unicode->Unicode的编码转换--即没有转换,把经过转换后的字节数组作为str的载体。

  bytes=System.Text.Encoding.Utf8.GetBytes(str)
  作用:把str的载体作Utf8->Unicode的编码转换。返回的是经过转换后的字符数组
  str=System.Text.Encoding.Utf8.GetString(bytes)
  作用:对字节数组作Gb2312->Unicode的编码转换,把经过转换后的字节数组作为str的载体。

  bytes=System.Text.Encoding.GetEncoding("GB2312").GetBytes(str)
  作用:把str的载体作Gb2312->Unicode的编码转换。返回的是经过转换后的字符数组
  str=System.Text.Encoding.GetEncoding("GB2312").GetString(bytes)
  作用:对字节数组作Gb2312->Unicode的编码转换,把经过转换后的字节数组作为str的载体。

如此类推
  bytes=System.Text.Encoding.GetEncoding("XXX").GetBytes(str)
  作用:把str的载体作XXX->Unicode的编码转换。返回的是经过转换后的字符数组
  str=System.Text.Encoding.GetEncoding("XXX").GetString(bytes)
  作用:对字节数组作XXX->Unicode的编码转换,把经过转换后的字节数组作为str的载体。

这里是我收集的一些有关字符编码的资料:http://61.145.116.154/bm/
还有:
http://www.unicode.org/charts/unihan.html
根据Unicode编码查其对应字符的字形、Utf8、汉字区位码等
http://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/GB/GB2312.TXT Unicode与Gb2312的对照表
http://www.sun.com/developers/gadc/technicalpublications/articles/mabiao.txt
Unicode与Gbk对照表

-------------------------------------------------------------------------------------

例子1:得到各种编码的字节数组

对于“测试”,查表得
Unicode:   75  109     | 213 139
(16进制:)  4B  6D        D5  8B
Utf8:      230 181 139 | 232 175 149
(16进制:)  E6  B5  8B    E8  AF  95
Gbk:       178 226     | 202 212
(16进制:)  B2  E2        CA  D4
Gb2312:    50  98      | 74  84

        Imports System.Text

        Dim str As String = "测试"
        Dim Bytes As Byte()
        Bytes = Encoding.Unicode.GetBytes(str) 
         'Bytes: 75 109 213 139
        Bytes = Encoding.UTF8.GetBytes(str)
         'Bytes: 230 181 139 232 175 149
        Bytes = Encoding.GetEncoding("Gb2312").GetBytes(str)
         'Bytes: 178 226 202 212    <-为什么不是50 98 74 84呢?搞不清~~
        Bytes = Encoding.Default.GetBytes(str)
         'Bytes: 178 226 202 212

例子2:把Utf8编码的字符串转为Unicode编码的字符串

        Dim Bytes As Byte() = {230, 181, 139, 232, 175, 149}
        Dim str As String = Encoding.Unicode.GetString(Bytes)
         'str的载体为“测试”的Utf8编码。以Unicode的形式显示为“&#46566;&#59531;閯”
         '查编码表,230 181 139 232 175 149刚好就是“&#46566;&#59531;閯”的Unicode码
        Bytes = Encoding.Unicode.GetBytes(str)
         'Bytes: 230 181 139 232 175 149,跟原来一样,没有变化
        str = Encoding.UTF8.GetString(Bytes)
         'str:“测试”

例子3:
(参考http://expert.csdn.net/Expert/topic/1861/1861857.xml?temp=.558407
对于“个”,查表得:
Unicode:   42  78
Utf8:      228 184 170
Gbk:       184 246

 Dim s As String = "个"                   
 Dim b As Byte()
 b = Encoding.Utf8.GetBytes(s)                 
'把42 78作Unicode->Utf8的转换b:228 184 170
 s = Encoding.Default.GetString(b)             
'把228 184 170作Gb->Unicode的转换。s:"涓"  ("涓"的Unicode编码为:147 109)
 b = Encoding.Unicode.GetBytes(s)              
'此时s的载体为147 109 0 0  <--问题已经出现了
 b = Encoding.Default.GetBytes(s)
'把s的载体147 109 0 0作Unicode->Gb的编码转换b:228 184 0
 s = Encoding.UTF8.GetString(b)
'把228 184 0作Utf8->Unicode的编码转换。s=""
 b = Encoding.Unicode.GetBytes(s)               'b(0)=0 b(1)=0
'此时s的载体为0 0

  例子说明:字符串经过UnicodeToUtf8->GbToUnicode->UnicodeToGb->Utf8ToUnicode这样的转换过程,理所当然地认为最后得到的应该是原来的字符串。然而有些情况却不是(例如这例子)。
  原因:Gb字符串是可以转换成Unicode编码的(对Gb中不存在的Uicode字符会以“?”代替),但前提是要进行这种转换的字符串必须是Gb编码。对于上面的
“把228 184 170作Gb->Unicode的转换”,而这228 184 170却是“个”的Utf8编码,所以转换时有数据丢失了。


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值