c#研究--字符编码

c#研究--字符编码
 
UCS-2编码UTF-8字节流
U-00000000 – U-0000007F:0xxxxxxx
U-00000080 – U-000007FF:110xxxxx 10xxxxxx
U-00000800 – U-0000FFFF:1110xxxx 10xxxxxx 10xxxxxx
U-00010000 – U-001FFFFF:11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 – U-03FFFFFF:111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 – U-7FFFFFFF:1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

举一个例子
我们使用代码
string s = "梁";
byte[] unicode = Encoding.Unicode.GetBytes(s);

byte[] utf8 =Encoding.UTF8.GetBytes(s);
用调试器可以看到


这里在内存中的数据是由高到低排列的,104十六进制为68,129十六进制为81,也就是说"梁"的unicode是十六进制为6881,二进制为110100010000001,我们从上边的表中可以查到,6881应该属于地三行(800-FFFF),因此"梁"的UTF-8编码需要三个字节即格式是“1110xxxx 10xxxxxx 10xxxxxx”。然后,从“梁”的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,“梁”的UTF-8编码是“111001101010001010000001”,按没8位转换成十进制就是230,162,129。正好和上图中utf8中的值一样。
六、C# UTF-8 转 GB2312
NET中内存中的字符串都是Unicode,所以测试程序在控制台应用程序下不好写,请大家根据如下代码自己来写吧:

Code
string UTF8ToGb2312( string str)
       {
        
string gb2312info = string .Empty;

         Encoding utf8
= Encoding.UTF8;
         Encoding gb2312
= Encoding.GetEncoding( " gb2312 " );

        
byte [] unicodeBytes = utf8.GetBytes(str);
            
byte [] asciiBytes = Encoding.Convert(utf8, gb2312, unicodeBytes);
            
char [] asciiChars = new char [gb2312.GetCharCount(asciiBytes, 0 , asciiBytes.Length)];
         gb2312.GetChars(asciiBytes,
0 , asciiBytes.Length, asciiChars, 0 );
         gb2312info
= new string (asciiChars);
        
return gb2312info;

       }


七、UTF8优点
UTF-8是世界通用的语言编码,如果在其他语言的操作系统下访问gb2312编码的网站,需要下载语言包,所以为了网站的通用性起见,用UTF8编码是更好的选择,但是相比较而言gb2312要比UTF-8得到的数据量少一些。

八、乱码问题:
如果在内存、文件或电子邮件中有一个字符串,那么应该知道它是使用什么编码方案,否则就不能将它正确的解释或显示给用户。如果在试图使用的编码方案中没有相应的编码值得等价内容,那么通常会显示一个小问号“?”,或者显示一个方框。NET中内存中的字符串都是Unicode,而asp.net程序默认是UTF-8编码,我们在使用某些字符串时出现了乱码,我们首先要判断是不是我们解释用的编码方式出错了。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值