【转载】BGK UTF-8编码区分

https://www.cnblogs.com/xiaoMzjm/p/4648175.html

 

UTF-8的编码规律


 UTF-8形式的二进制,当一个字节时,两个字节时,三、四、五、六个字节时,都有一定的格式:

1字节0xxxxxxx
2字节110xxxxx 10xxxxxx
3字节1110xxxx 10xxxxxx 10xxxxxx
4字节11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
5字节111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
6字节111111x0 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

很明显,字节数不一样的话,第一个字节是不同的,所以第一个字节可用用来表示该字符究竟占用了多少个字节。

当计算机读取到以0xxxxxxx开头的字节,那么就代表这个字节独自就已经表示某个字符了,计算机将把这个字节单独拿出来解码。

当计算机读取到以110xxxxx开头的字节,那么就代表两个字节才能表示某个字符,计算机就把这个字节以及它后面的一个字节拿出来,代表一个字符进行解码。

……

而除了第一个字节外,后面的字节都是统一的10xxxxxx格式。

有了上面的有规则的格式,按到理我们就可以使用正则表达式来检测一个二进制串是否是UTF-8编码后的串,但代码中操作二进制并不方便,结合URL为16进制的特点,我们可以用正则表达式判断16进制的串。

 

如何构造正则表达式


 

我们先看看这种编码格式前一个字节的范围:

 二进制十六进制
1字节00000000~0111111100~7f  
2字节11000000~11011111c0~df  
3字节11100000~11101111  e0~df
4字节11110000~11110111f0~f7
5字节11111000~11111011f8~fb
6字节11111100~11111101fc~fd

以上的范围可用计算机自行验证:

后面格式相同的字节10xxxxxx的范围:

10000000~10111111  80~bf

按照这种格式,UTF-8编码格式最多可用用来表示一个1+5*6=31位的二进制串,共使用6个字节。

按照这种规律,我们先练一下手,尝试把“字”转化为UTF-8的十六进制:

java使用的字符集是unicode的,所以我们以unicode为例子。

1、找出“字”在unicdoe字符集中的序号:

1

2

3

public static void main(String[] args) {

    System.out.println((int)'字');

}

结果为:23383

2、把23383转化二进制:  

23383  101101101010111

可用看出,二进制共15位,按照UTF-8的编码格式,得用3个字节来表示。

我们把101101101010111从后往前分成三组:101,101101,010111

填充到3字节的UTF-8编码格式中为:

1110xxxx  10xxxxxx  10xxxxxx

11100101 10101101 10010111

3、使用计算器把二进制转化为16进制为:

OxE5  OxAD  Ox97

4、使用网上的工具验证一下,结果吻合,说明这种规律是正确的。

 

 

上面已经介绍了UTF-8的规律,那么我们借助强大的正则表达式,就可以判断一个URL串是经过什么编码格式编码的了。

先把上面的表复制下来容易观察:

 二进制十六进制
1字节00000000~0111111100~7f  
2字节11000000~11011111c0~df  
3字节11100000~11101111  e0~df
4字节11110000~11110111f0~f7
5字节11111000~11111011f8~fb
6字节11111100~11111101fc~fd
 

1字节时:[\\x00-\\x7f]---------------------------------1

2字节时:[\\xc0-\\xdf][\\x80-\\xbf]-------------------2

3字节时:[\\xe0-\\xef][\\x80-\\xbf]{2}--------------3

4字节时:[\\xf0-\\xf7][\\x80-\\xbf]{3}--------------4

5字节时:[\\xf8-\\xfb][\\x80-\\xbf]{4}--------------5

6字节时:[\\xfc-\\xfd][\\x80-\\xbf]{5}--------------6

使用或组合在一起就是:^([\\x00-\\x7f]|[\\xc0-\\xdf][\\x80-\\xbf]|[\\xe0-\\xef][\\x80-\\xbf]{2}|[\\xf0-\\xf7][\\x80-\\xbf]{3}|[\\xf8-\\xfb][\\x80-\\xbf]{4}|[\\xfc-\\xfd][\\x80-\\xbf]{5})+$

判断过程是这样子的:例如【字】经过UTF-8编码后,为:%e5 %ad %97,共3个字节,符合第3字节的情况,第一个字节e5在[\\xe0-\\xef]范围内,后两个字节ad和97都在[\\x80-\\xbf]范围内。

所以我们可以说这个字符是经过UTF-8编码的。我们就可以使用UTF-8编码格式对其进行解码了。

java代码如下:

复制代码

1     protected static final Pattern utf8Pattern = Pattern.compile("^([\\x00-\\x7f]|[\\xc0-\\xdf][\\x80-\\xbf]|[\\xe0-\\xef][\\x80-\\xbf]{2}|[\\xf0-\\xf7][\\x80-\\xbf]{3}|[\\xf8-\\xfb][\\x80-\\xbf]{4}|[\\xfc-\\xfd][\\x80-\\xbf]{5})+$");
2                 Matcher matcher = utf8Pattern.matcher(pureValue);
3                 if (matcher.matches()) {
4                     return "UTF-8";
5                 } else {
6                     return "GBK";
7                 }

复制代码

 

缺陷


   使用上面的方法,貌似没什么问题,不过GBK编码后是以两个两个字节呈现的,而UTF-8也有两个字节的情况,所以当一个字符经GBK编码后,转化为16进制,而刚好这个16进制的范围落入UTF-8的两个字节的范围,那么就会被误判成UTF-8,从而导致解码错误。那真的有可能会出现这种情况吗?

答案是会的,我们查看下GBK简体中文编码表

发现有一部分范围落入了UTF-8的二进制范围了。

从:

一直到:

即UTF-8十六进制中两个字节的范围[\\xc0-\\xdf][\\x80-\\xbf],GBK都有。

例如上面表的第二个中文【愧】,愧的GBK十六进制是C0 A0,那么完全符合UTF-8正则表达式中二字节的[\\xc0-\\xdf][\\x80-\\xbf]这个判断,所以会被误认为是UTF-8编码。

注:该缺陷第一次看,是在下方“参考"的第一篇博客里,尝试了一下,的确有缺陷。 

 

尝试修复缺陷


根据下面"参考"的第一篇博客,修复的思路是把重复的区域都认为是GBK编码。

我们截取正则表达式的前两种情况(一字节、二字节的情况)来排除:^([\\x01-\\x7f]|[\\xc0-\\xdf][\\x80-\\xbf])+$

假如某个16进制串match该正则表达式,就认为是GBK编码的。

修改后的代码为:

复制代码

 1     protected static final Pattern utf8Pattern = Pattern.compile("^([\\x01-\\x7f]|[\\xc0-\\xdf][\\x80-\\xbf]|[\\xe0-\\xef][\\x80-\\xbf]{2}|[\\xf0-\\xf7][\\x80-\\xbf]{3}|[\\xf8-\\xfb][\\x80-\\xbf]{4}|[\\xfc-\\xfd][\\x80-\\xbf]{5})+$");
 2     protected static final Pattern publicPattern = Pattern.compile("^([\\x01-\\x7f]|[\\xc0-\\xdf][\\x80-\\xbf])+$");
 3 Matcher publicMatcher = publicPattern.matcher(str);
 4                 if(publicMatcher.matches()) {
 5                     return "GBK";
 6                 }
 7                 
 8                 Matcher matcher = utf8Pattern.matcher(str);
 9                 if (matcher.matches()) {
10                     return "UTF-8";
11                 } else {
12                     return "GBK";
13                 }

复制代码

 

又一缺陷


 但这样一来,原本是一个字节或两字节,且是UTF-8编码的,就会被误判为GBK。。。

但是,这总比被误判成UTF-8好,因为我们查看Unicode编码表

可以发现,第一个中文是“一”,转化为UTF-8的话已经排到3个字节去了,所以2个字节内不会出现中文。

但是GBK中,中文是两个字节的。

所以,采用上面的修复缺陷的方法,可以保证中文不会乱码。对于某些网站,只需保证中文不会乱码即可,比如说国内的各种中文购物网站。这些网站中商品的标题一般都是中文的,用户一般以中文搜索,我们尽可能保证中文不乱码即可。

所以,该技术还是有一定用处的。

 

参考


1、http://www.cnblogs.com/chengmo/archive/2011/02/19/1958657.html

2、http://www.cnblogs.com/chengmo/archive/2010/10/30/1864004.html

3、unicode编码表

4、GBK简体中文表

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值