UTF-8字符C2A0引起的问题

最新推荐文章于 2021-09-24 19:48:50 发布

weixin_30235225

最新推荐文章于 2021-09-24 19:48:50 发布

阅读量2.9k

点赞数

文章标签： c/c++ 数据库 c#

原文链接：http://www.cnblogs.com/lixiuke/p/9996504.html

版权

今天遇到一个问题：

网页上的一段文字中有几个空格，把这段文字当作文件名称保存为一个windows系统下的文件后，文件名中本来是空格的地方变成了问号，另外一个C#程序打开这个文件，也提示找不到文件。

初步估计是这几个空格的编码有问题。用16进制的编辑器打开这段文字：

打开后发现，这几个空格的编码是C2A020C2A0，那么平常用的空格是什么编码呢？

找到一个正常的带空格的字符串“2018-11-20 14:09:07”看了一下，中间的空格的编码是20通过对比发现C2A020C2A0是三个“空格”，分别是C2A0、20、C2A0，那么这个C2A0到底是什么呢？

C2A0是UTF8里的排版用的空格（这个空格是与ASCII、unicode中的空格是不一样的，ASCII中的空格编码是20，unicode中的空格是0xA0），但是这个特殊的字符，不在GBK字符集中。却频繁用于xml/html等格式的文件中。大量UTF-编码的网页使用这个字符用作占位的空格。而且不同浏览器对它的处理方式不同：IE浏览器识别出该符号并以空格显示，chrome、firefox则替换为xml转义字符 &nbsp。

原来C2A0就是我们网页中常用的全角空格&nbsp。用户从其他网页上拷贝了一段包含此字符的字符串，复制到我们的网页界面上显示正常，但是我们的C++程序将编码格式转换成 GBK时，就出现了乱码。

GBK字符集只收录了两万多个字符，比UTF-8的字符数量少得多。转化到GBK编码的时候，就会有编码是GBK字符集以外的，不能转化成GBK编码。这部分字符在转换之后的字符串中都变成了“?”，注意，这个问号只是显示为问号而不是真正的问号。

处理方法：

在保存文件之前，对文件名做一个特殊处理，用 0×20 代替掉 0xC2A0，程序（C#）如下所示：

private string ChangeUTF8Space(string targetStr)
         {
             try
             {
                 string currentStr = string.Empty;
                 byte[] utf8Space = new byte[] { 0xc2, 0xa0 };
                 string tempSpace = Encoding.GetEncoding("UTF-8").GetString(utf8Space);
                 currentStr = targetStr.Replace(tempSpace, " ");
                 return currentStr;
             }
             catch (Exception ex)
             {
                 return targetStr;
             }
         }

转载于:https://www.cnblogs.com/lixiuke/p/9996504.html