空格变成问号的怪问题

问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”,转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符,因此如果简单地进行编码转换,生成地GB2312/Unocode字符串中,这个字符就会被替换成为问号(ASCII ox3F)。此时如果进行写库、写文件之类,就会把问号直接写入了。当然此时会有一种山寨方式:直接替换问号为空格。可是这种方法,会把原本真正的问号也枪毙掉。

       使用UTF-8进行HTMLDecode的时候,对于语句开头的( ),就会被自动转换成为这个特殊的空格,可能是判断为放在开头的空格,一定是用来排版的。在转换为其他编码之前,这个特殊的空格受到的待遇与普通的半角空格是一致的,甚至也会被trim()去掉。

       因此,碰到这个问题的原因有两种:一种是在UTF-8编码下进行了转换,产生了这个字符;还有一种就是网页中直接采用了这个字符进行排版。

       知道了具体原因,就有正规的解决方法了。方法就是:在得到UTF-8字符串之后,先进行一个替换,把这个特殊的空格替换为普通的空格,如果是HTML串,建议替换为( )。java代码如下:

 

 
  1. byte[] space = new byte[]{(byte) 0xc2,(byte) 0xa0};

  2. String UTFSpace =new String( space,"UTF-8" );

  3. result=result.replaceAll(UTFSpace, " ");

 

 

   这样做,就不会把串里面本来应该有的问号错误的替换为空格。也不会看到讨厌的问号,能保存原来字符串的真面目了。
       需要强调的是,替换之前不能进行编码转换,一定要继续使用UTF-8编码。如果已经转换成其他编码,那么错误就已经不可逆转了。没有办法再区分这个错误的问号和正常的问号之间的差别了。

### 回答1: 将UTF-8编码转换为ANSI编码是一种常见的转换需求。UTF-8是一种长编码方式,能够表示全球各种文字字符,而ANSI则是一种单字节编码,通常用于英语等西方语言。下面是一种将UTF-8转换为ANSI的方法: 1. 首先,明确一点,UTF-8编码中的字符可能需要多个字节来表示,而ANSI编码只需要一个字节。因此,在转换过程中,如果UTF-8编码中的字符超出了ANSI编码范围,将无法直接进行转换。 2. 创建一个空字符串,用于存储转换后的ANSI编码。 3. 遍历UTF-8编码的每个字节: - 如果字节的最高位是0,表示该字节单独可以表示一个ANSI字符,直接将该字节添加到ANSI编码中。 - 如果字节的最高位是1,表示该字节与后续的字节一起组成一个UTF-8字符。读取后续的字节,构成完整的UTF-8字符。 - 判断UTF-8字符是否超出了ANSI编码范围。如果超出了,则不能进行转换。 - 如果没有超出ANSI编码范围,找到对应的ANSI字符,将其添加到ANSI编码中。 4. 返回转换后的ANSI编码。 需要注意的是,由于ANSI编码只能表示一部分字符,因此某些UTF-8字符可能无法转换为对应的ANSI字符。在实际转换时,可能需要根据具体的需求和使用环境进行处理和调整。 ### 回答2: C和UTF-8是不同的字符编码标准。C是一种早期的编程语言,它使用的是ANSI字符集作为默认的字符编码。ANSI字符集使用1个字节来表示一个字符,总共有256个字符,包括标点符号、数字和一些基本的拉丁字母。UTF-8是一种现代的字符编码标准,它是Unicode的一种实现方式,使用1到4个字节来表示一个字符,总共可以表示超过1百万个字符。 要将UTF-8编码的字符转换为ANSI编码,需要注意的是ANSI字符集无法表示一些特殊的字符,因此一些不在ANSI字符集中的字符可能会丢失或替换为问号或其他无效字符。可以使用一些文本编辑软件或编程语言提供的转换函数来实现这个转换过程。 然而,需要注意的是,由于ANSI字符集的限制和UTF-8编码字符集的广泛使用,将UTF-8转换为ANSI可能会导致信息的丢失或错误的表示,特别是对于包含非拉丁字母或特殊符号的文本。因此,更推荐使用支持UTF-8的字符编码,以保留原始文本的完整性和准确性。 ### 回答3: 将UTF-8编码转换为ANSI编码需要使用特定的软件或工具。由于UTF-8编码包含了更多的字符和字符集,而ANSI编码只包含较少的字符集,所以转换时可能会有一些字符无法转换或出现乱码的情况。 首先,可以使用一些文本编辑器软件来进行这种转换。比如在Windows操作系统中,可以使用记事本打开UTF-8编码的文本文件,然后选择“另存为”选项,将编码格式选择为ANSI,然后保存即可。这样就将UTF-8编码转换为了ANSI编码。但需要注意的是,如果文本中包含某些特殊字符,转换后可能会出现乱码或字符丢失的情况。 另外,也可以使用一些第三方的编码转换工具来进行转换。这些工具可以将UTF-8编码的文本文件导入,然后选择转换为ANSI编码,最后保存转换后的文件。这种方式相对来说更加灵活,可以对特定字符进行自定义的转换设置。 无论是使用文本编辑器还是编码转换工具,都需要注意转换后的结果可能不完全准确,特别是对于一些特殊字符和格式的处理。因此,在进行编码转换时,应该仔细检查转换后的文件,确保没有出现乱码或字符丢失的情况。对于一些重要的数据和文件,最好备份原始的UTF-8编码版本,以防止转换后无法还原的情况发生。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值