昨天在尝试写点代码的时候碰到需要读取字符串的字节长度的问题(一个汉字算两个字节),于是小研究了一下。。。这里些点小笔记记录一下,方便日和查看或者别人查阅。
在C#里面我们可以通过字符串的Length属性读取字符串的长度,但众所周知,通过这个属性读出来的话不管中文还是英文或者数字,一个字就是一个长度,这并不是我们想要的结果。正确的方法应该是指定编码格式,然后通过编码的GetBytes方法来读取长度。于是写了一个控制台程序用于比较各种编码读取长度的不同,代码如下:
c#代码
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
string
text =
" 【中文】(12.21)(ァぁ)[En] "
;
var String_Len = text.Length;
var ASCII_Len = Encoding.ASCII.GetBytes(text).Length;
var Default_Len = Encoding.Default.GetBytes(text).Length;
var BigEndianUnicode_Len = Encoding.BigEndianUnicode.GetBytes(text).Length;
var Unicode_Len = Encoding.Unicode.GetBytes(text).Length;
var UTF32_Len = Encoding.UTF32.GetBytes(text).Length;
var UTF7_Len = Encoding.UTF7.GetBytes(text).Length;
var UTF8_Len = Encoding.UTF8.GetBytes(text).Length;
var GB2312_Len = Encoding.GetEncoding(
"GB2312"
).GetBytes(text).Length;
var strFm=
"{0} \t: {1}"
;
Console.WriteLine(strFm,
"String.Length"
, String_Len);
Console.WriteLine();
Console.WriteLine(strFm,
"系统默认编码"
, Default_Len);
Console.WriteLine();
Console.WriteLine(strFm,
"GB2312编码"
, GB2312_Len);
Console.WriteLine();
Console.WriteLine(strFm,
"ASCII编码"
, ASCII_Len);
Console.WriteLine(strFm,
"BigEndianUnicode编码"
, BigEndianUnicode_Len);
Console.WriteLine(strFm,
"Unicode编码"
, Unicode_Len);
Console.WriteLine(strFm,
"UTF32编码"
, UTF32_Len);
Console.WriteLine(strFm,
"UTF7编码"
, UTF7_Len);
Console.WriteLine(strFm,
"UTF8编码"
, UTF8_Len);
|
打印出来的结果如下: