java_字符编码的发展历史

最早的当然是Ascii编码:0-32是给像打印机这样的外围设备。32-128是键盘上的字母和符号
中国发现不够,于是乎保留Ascii前一个字节的内容,后面加上了一个字节:GB2312
后来少数民族不够用了:GBK(GuoBiaoKuoZhan国标扩展)(关于Latin1编码
每个国家都来搞太乱了,国际出现一套全球标准:UTF
中国文字全套:GB18030

抛砖引玉
一个汉字在utf8编码下占3个字节,在GBK编码下占2个字节
一个字母在utf8编码下占1个字节,在GBK编码下占1个字节

这么算,utf8编码下1KB 约等于341个汉字,512个字母,1M 约等于 349,184个汉字 ,524,288个字母
public class CharMain {

    public static void main(String[] args) throws Exception {
        String a = "你";
        System.out.println("================" + a + "============");
        System.out.println(a.getBytes("utf-8").length);
        System.out.println(a.getBytes("utf-16").length);
        System.out.println(a.getBytes("GBK").length);
        System.out.println(a.getBytes("GB18030").length);
        System.out.println(a.getBytes("GB2312").length);

        a = "s";
        System.out.println("================" + a + "============");
        System.out.println(a.getBytes("utf-8").length);
        System.out.println(a.getBytes("utf-16").length);
        System.out.println(a.getBytes("GBK").length);
        System.out.println(a.getBytes("GB18030").length);
        System.out.println(a.getBytes("GB2312").length);

        a = "3";
        System.out.println("================" + a + "============");
        System.out.println(a.getBytes("utf-8").length);
        System.out.println(a.getBytes("utf-16").length);
        System.out.println(a.getBytes("GBK").length);
        System.out.println(a.getBytes("GB18030").length);
        System.out.println(a.getBytes("GB2312").length);

        a = "!";
        System.out.println("================" + a + "============");
        System.out.println(a.getBytes("utf-8").length);
        System.out.println(a.getBytes("utf-16").length);
        System.out.println(a.getBytes("GBK").length);
        System.out.println(a.getBytes("GB18030").length);
        System.out.println(a.getBytes("GB2312").length);

        a = "0x20001";
        System.out.println("================" + a + "============");
        System.out.println(a.getBytes("utf-8").length);
        System.out.println(a.getBytes("utf-16").length);
        System.out.println(a.getBytes("GBK").length);
        System.out.println(a.getBytes("GB18030").length);
        System.out.println(a.getBytes("GB2312").length);
    }
}

结果:
============================
3
4
2
2
2
================s============
1
4
1
1
1
================3============
1
4
1
1
1
================!============
1
4
1
1
1
================0x20001============
7
16 0x20001 ,x占4个字节 其他数字6个各占2个字节 4+2*6 = 16
7
7
7
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值