C#中根据字节处理字符串（含中文字符）

最新推荐文章于 2022-05-25 12:09:43 发布

scutLiu

最新推荐文章于 2022-05-25 12:09:43 发布

阅读量6.6k

点赞数

分类专栏： C/C++/C# 文章标签： c# string byte

本文链接：https://blog.csdn.net/scutliu/article/details/5566201

版权

C/C++/C# 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

C#中，要截取指定字节数的字符串时，如果字符串中没有汉字，则使用substring可以完成，但如果含有汉字，则substring会将两个字节的汉字当一个字节处理，导致实际得到的结果不是期望的结果。

为了解决这个问题，我们可以借助UCS2编码来完成。

UCS2编码中，每个字符都是由两个字节组成，其组成规则是：

对于一个英文或数字字符，第一个字节是相应的ASCII，第二个字节是0，如a的UCS2编码是97 0；

对于一个汉字，两个字节都不为0

由组成规则我们可以得到这么一个结论：我们可以根据UCS2编码中的第二个字节来判断一个字符时汉字字符还是英文（或数字）

具体实现如下：

        private int GetBytesOfString(string str)
        {//获取字符串的字节数
            byte[] bytes = System.Text.Encoding.Unicode.GetBytes(str);
            int n = 0;
            for (int i = 0; i < bytes.GetLength(0); i++)
            {
                // 偶数位置，如0、2、4等，为UCS2编码中两个字节的第一个字节
                if (i % 2 == 0)
                {
                    n++;      // 在UCS2第一个字节时n加1
                }
                else
                {
                    // 当UCS2编码的第二个字节大于0时，该UCS2字符为汉字，一个汉字算两个字节
                    if (bytes[i] > 0)
                    {
                        n++;
                    }
                }
            }
            return n;
        }

       private string GetSubstringByLength(string str, ref int len)
        {//截取字符串指定字节数的内容，并返回实际截取的字节数
            byte[] bytes = System.Text.Encoding.Unicode.GetBytes(str);
            int n = 0; // 表示当前的字节数
            int i = 0; // 要截取的字节数
            for (; i < bytes.GetLength(0) && n < len; i++)
            {
                if (i % 2 == 0)// 偶数位置，如0、2、4等，为UCS2编码中两个字节的第一个字节
                {
                    n++;      // 在UCS2第一个字节时n加1
                }
                else
                {
                    if (bytes[i] > 0)// 当UCS2编码的第二个字节大于0时，该UCS2字符为汉字，一个汉字算两个字节
                    {
                        n++;
                    }
                }
            }
            // 如果i为奇数时，处理成偶数
            if (i % 2 == 1)
            {
                if (bytes[i] > 0) // 该UCS2字符是汉字时，去掉这个截一半的汉字
                    i = i - 1;
                else
                    i = i + 1;// 该UCS2字符是字母或数字，则保留该字符
            }
            len = i;
            return System.Text.Encoding.Unicode.GetString(bytes, 0, i);
        }