字符集的问题
不分享无用的东西
此类问题包括:
- GB2312英文字符几个字节
- GBK中的英文字符占用一个字节还是两个字节
- ???占几个字节
要明确一下的概念,方便长期记忆
字符集是干嘛的.?
字符集是标识存储于计算机中的数据的格式的集合
这么说显得很枯燥,而且说定义也很难理解
实际上可以理解为字符集是为了:
**解决中国跟外国的文字的不同而存在的**(方便理解)
在java中,很多人问GB2312的一个英文占几个字符
你要知道GB2312主要是用来表示汉字
的,所以你要记得GB2312对待英文是比较特殊
的.
因为汉字大部分是用双字节的,所以GB2312也都是双字节
的.
但是这个时候很多人会说
byte[] bArray="hello".getBytes("gb2312"); System.out.println(bArray.length);
上面代码输出的是5
不是说GB2312都是双字节吗?为什么不是10呢?
没错,你说的都没错,我一开始也是这么理解的.
但是你的记住上文我说的,GB2312对待英文是比较特殊的
为什么是特殊的?
因为GB2312不承认普通(半角符号)的英文
,为了方便记忆
可以理解为普通(半角符号)英文不属于GB2312的管辖体系内
所以所以!!!!!!!!!!!!!!!!!!!!!
普通的符号不属于GB2312,不符合GB2312都是双字节
的这个定义
只有全角符号下的英文才符合!!!
全角符号长什么样?
长这样,记好了
-------------------
hello
-------------------
这个玩意才占
10个字节
举一反三,其他字符集的对字节的限定以及一些奇怪的问题,现在懂了吧