getbytes方法_关于C#中识别和查找中英文字符串的解决方法和字符串处理方式的笔记...

54491eeb999331f83a2c6e369de529bb.png

今天更新公司内部插件的时候遇到一个问题,就是需要识别一个字符串是中文还是英文,如果字符串中不存在中文字符就要用另一种方法处理。因为以前在学校的时候就没学好C语言和C++的字符串处理,再加上字符串不怎么遇到,有关字符串的知识基本忘完了。

过程:

源数据是从一个Access数据库中读取的字段,然后转化为string字符串。首先想到的是用ASCⅡ码的长度来看。但是网上查了下看到有人说.NET是把string统一处理为Unicode的,不论中英文都是一个字符。查阅了MSDN的.NET手册(4.7.2)后得知,string其实是引用自String类的的类型,一个string其实是一个或多个UTF-16的Unicode 字符的序列。而.NET一个string最多可以存储1亿个char(约2GB)。

通过搜索得知,UTF-16编码的Unicode使用16位无符号整型的格式进行编码,所以一个Unicode字符就是两字节。中文字符的Unicode只位于几个特定范围之内(都是16进制)——4E00-9FA5,2E80-A4CF,F900-FAFF,FE30-FE4F,其中第一个最常用,其他的都是扩展集、部首、象形字、注间字母等。

写了段小代码做实验,发现直接把byte[] bytes_en_cn里面的东西打印出来是一串数字:

114,101,0,101,0,98,0,111,0,107,0,16,149,101,107,

namespace unicode_test_1
{
    class Program
    {
        static void Main(string[] args)
        {
            string en_cn = "reebok锐步";
            byte[] bytes_en_cn = Encoding.Unicode.GetBytes(en_cn);

            foreach (byte i in bytes_en_cn)
            {
                Console.WriteLine("{0},",i);
            }
            Console.Write("rn");

            Console.ReadKey();
        }
    }
}

我:????,然后注意到

|114,0|101,0|101,0|98,0|111,0|107,0|16,149,101,107|
|  r  |  e  |  e  |  b |  o  |  k  |     锐步     | ???

然后猜这可能是十进制的,接着算了下16(十进制)=10(十六进制),149(十进制)=95(十六进制),利用在线的字符/Unicode转换工具得出汉字“锐”的Unicode是38160,这对不上啊。思考了一下想到这两个16进制整数应该是代表一个类似编号的东西,16和149是两个数就不太对了,接着计算一下中文字符的范围4E00-9FA5的十进制表示是19968-40869,38160正好落在中间,算一下38160的十六进制是9510,正好是10,95反过来。再上网一查发现妈个鸡Unicode转换为字符的时候顺序是反过来的。

这样一来,把上面打印出来的数全换成16进制得到

|72,0|65,0|65,0|62,0|6f,0|6b,0|10,95|65,6b|
| r  |  e |  e |  b |  o |  k |     锐步  | 

从后往前看072就是72,十进制为114,6B65的十进制是27493,这下捋顺了。

再写个控制台程序试试能不能在字符串“reebok锐步”中找出中文,这里我用了一个很直接的办法,当然实际上实现这一目的的方法是很多的,比如正则表达式(但是本菜鸡不太会)。

namespace unicode_test_1
{
    class Program
    {
        static void Main(string[] args)
        {
            string en_cn = "reebok锐步";
            char[] name = en_cn.ToCharArray();
            byte[] bytes_en_cn = Encoding.Unicode.GetBytes(en_cn);

            Console.Write("字符数组name:");
            foreach (char i in name)
            {
                Console.WriteLine("{0},",i);
            }
            Console.Write("rn");

            Console.Write("直接显示byte:");
            foreach (byte i in bytes_en_cn)
            {
                Console.WriteLine("{0},",i);
            }
            Console.Write("rn");

            Console.WriteLine("显示为16位");
            foreach (byte i in bytes_en_cn)
            {
                Console.Write("{0:X},", i);
            }
            Console.Write("rn");

            Console.Write("结果:");
            foreach (char i in name)
            {
                if (i >= 0x4e00 && i <= 0x9fa5)
                {
                    Console.Write("{0},", i);
                }
            }
            Console.ReadKey();
        }
    }
}

结果:

27c38d0d17861686b01399ed1667e8d4.png
这里还有一点不太明白的就是为啥前两个遍历除了第一个元素每一个都在打印的时候换行了??

参考资料:

https://www.iteye.com/topic/977671​www.iteye.com https://blog.csdn.net/u011511086/article/details/72865006​blog.csdn.net String Class (System)​docs.microsoft.com
d1e20519d53b55c767988ec659fc1589.png
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值