C#中的字符串及其编码转换

  关于字符编码以及如何在程序中处理unicode,本想写篇文章总结学习一下,但发现有前人已经论述的很完善了,不再重复,可以参考:http://www.regexlab.com/zh/encoding.htm

     在C++中,字符有char和wchar之分,相应的,字符串有string和wstring两种。C#中,string是一个unicode字符串,相应的,每个char都是16位。

      源文件中出现的字符串常量,都会被自动转换为unicode编码(utf16),利用Text.Encoding,可以实现不同编码间的转换。

[c-sharp]  view plain  copy
  1. using System;  
  2. using System.Text;  
  3.   
  4. namespace test  
  5. {  
  6.     class Program  
  7.     {  
  8.         static void Main(string[] args)  
  9.         {  
  10.             string u16s = "忘記了啊abc"//默认的字符编码是unicode,也就是utf16  
  11.   
  12.             //4种编码  
  13.               Encoding utf8 = Encoding.UTF8;  
  14.             Encoding utf16 = Encoding.Unicode;   
  15.             Encoding gb = Encoding.GetEncoding("gbk");   
  16.             Encoding b5 = Encoding.GetEncoding("big5");  
  17.   
  18.             //转换得到4种编码的字节流  
  19.             byte[] u16bytes = utf16.GetBytes(u16s);  
  20.             byte[] u8bytes = Encoding.Convert(utf16, utf8, u16bytes);  
  21.             byte[] gbytes = Encoding.Convert(utf16, gb, u16bytes);  
  22.             byte[] bbytes = Encoding.Convert(utf16, b5, u16bytes);  
  23.   
  24.             Console.Write("unicode: ");  
  25.             foreach (byte c in u16bytes)  
  26.             {  
  27.                 Console.Write(((int)c).ToString("x") + " ");  
  28.             }  
  29.             Console.WriteLine();  
  30.   
  31.             Console.Write("utf8: ");  
  32.             foreach(byte c in u8bytes)  
  33.             {  
  34.                 Console.Write(((int)c).ToString("x") + " ");  
  35.             }  
  36.             Console.WriteLine();  
  37.   
  38.             Console.Write("gbk: ");  
  39.             foreach (byte c in gbytes)  
  40.             {  
  41.                 Console.Write(((int)c).ToString("x") + " ");  
  42.             }  
  43.             Console.WriteLine();  
  44.   
  45.             Console.Write("big5: ");  
  46.             foreach (byte c in bbytes)  
  47.             {  
  48.                 Console.Write(((int)c).ToString("x") + " ");  
  49.             }  
  50.             Console.WriteLine();  
  51.   
  52.             //得到4种编码的string  
  53.             string u8s = utf8.GetString(u8bytes);  
  54.             string gs = gb.GetString(gbytes);  
  55.             string bs = b5.GetString(bbytes);  
  56.   
  57.             Console.WriteLine("unicode: " + u16s + " " + u16s.Length.ToString());  
  58.             Console.WriteLine("utf8: " + u8s + " " + u16s.Length.ToString());  
  59.             Console.WriteLine("gbk: " + gs + " " + gs.Length.ToString());  
  60.             Console.WriteLine("big5: " + bs + " " + bs.Length.ToString());  
  61.   
  62.             Console.Write("unicode: ");  
  63.             foreach (char c in u16s)  
  64.             {  
  65.                 Console.Write(((int)c).ToString("x") + " ");  
  66.             }  
  67.             Console.WriteLine();  
  68.   
  69.             Console.Write("utf8: ");  
  70.             foreach (char c in u8s)  
  71.             {  
  72.                 Console.Write(((int)c).ToString("x") + " ");  
  73.             }  
  74.             Console.WriteLine();  
  75.   
  76.             Console.Write("gb2312: ");  
  77.             foreach (char c in gs)  
  78.             {  
  79.                 Console.Write(((int)c).ToString("x") + " ");  
  80.             }  
  81.             Console.WriteLine();  
  82.   
  83.             Console.Write("big5: ");  
  84.             foreach (char c in bs)  
  85.             {  
  86.                 Console.Write(((int)c).ToString("x") + " ");  
  87.             }  
  88.             Console.WriteLine();  
  89.   
  90.             Console.ReadKey();  
  91.         }  
  92.     }  
  93. }  

 

//以上程序的输出结果:

//以下是4种编码的字节串

unicode: d8 5f 18 8a 86 4e 4a 55 61 0 62 0 63 0
utf8: e5 bf 98 e8 a8 98 e4 ba 86 e5 95 8a 61 62 63
gbk: cd fc d3 9b c1 cb b0 a1 61 62 63
big5: a7 d1 b0 4f a4 46 b0 da 61 62 63

 

//通过GetString()方法得到的4个string
unicode: 忘記了啊abc 7
utf8: 忘記了啊abc 7
gbk: 忘記了啊abc 7
big5: 忘記了啊abc 7

 

//4个string中的字符编码
unicode: 5fd8 8a18 4e86 554a 61 62 63
utf8: 5fd8 8a18 4e86 554a 61 62 63
gb2312: 5fd8 8a18 4e86 554a 61 62 63
big5: 5fd8 8a18 4e86 554a 61 62 63

 

      可以看到,使用GetString方法,得到的string都是unicode编码的,也就是说,它的作用是把各种编码的byte数组“解码”为一个unicode字符串。

 

  • 3
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值