Java char 如何存储UTF-8字符

Java char是什么

Java char 占 2 个字节,使用 UTF-16 表示一个字符。由于它只使用 2 个字节,所以 char 只用能表示部分UTF-16编码,即0x0000 ~ 0xFFFF。对于 4 字节的 UTF-16,需要使用 2 个 char。

UTF-8(Unicode Transformation Format - 8- bit)

  • 使用 1 ~ 4 个字节变长编码表示「1,112,064」个 Unicode 码点
  • 兼容 ASCII
  • 码点数值越小,使用的字节数越少,出现的频率越高

Unicode

Unicode是一种字符集,是将我们认知中的许多事物转换成整数的对应集合

Unicode 只是一个符号集,它只规定了每个符号的二进制数,却没有规定这个二进制数应该如何存储。

 

在我们的认知种的事物  -> 字符集 ->  计算机存储,从我们的认知到字符集可以有两种对应方式ASCCII码和Unicode码。

在Java(其中主要包括在JVM中、内存中、在代码里声明的每一个char、String类型的变量中。)中字符只以一种形式存在,那就是Unicode,不选择任何特定的编码,直接使用它们在字符集中的编号,这是统一的唯一的方法。
在JVM内部,统一使用Unicode表示,当着字符从JVM内部移动到外部时(即保存为文件系统中的一个文件内容时),就进行了编码转换,使用了具体的编码方案。因此也可以说,所有的编码转换只发生在边界的地方,也就是各种输入/输出流的起作用的地方。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值