java 字符utf8编码_Java-数据类型与编码(ASCII、Unicode 和 UTF-8)

一、数据储存单位

1.bit(位)

计算机数据在硬盘中,以机械硬盘为例,其内部由磁性材料制成。磁极有 N\S 两级,可表示两种状态。可以看成 0/1。这是计算机最小储存单位,称为位。

2.Byte(字节)

一块磁盘中有许多这样的小磁块,可以表示许多 0/1。而 0/1 正好可以表示二进制数。

单单看一个二进制数并没有什么价值。上个世纪 60 年代,美国制定了一套字符编码,对英语字符与二进制数之间的关系,做了统一规定。这被称为 ASCII 码,一直沿用至今。

ASCII 码一共规定了 128 个字符的编码。如空格(SPACE)是 32(00100000),大写字母 A 是 65(01000001)。这 128 个符号(包括 32 个不能打印出来的控制符号),只占用了一个字节的后面 7 位,最前面的一位统一规定为 0。

ASCII 码中 1 Byte = 8 bit,后来也就默认一字节等于八位了。

二、编码

1.字符

字符并不是一个储存单位,而是一个语言符号。由此来引出码表与编码问题。

英语用 128 个符号使用 ASCII 码表就够了,但是用来表示其他语言,128 个符号是不够的。

简体中文常见的码表是 GB2312,使用两个 Byte 表示一个汉字,所以理论上最多可以表示 256 x 256 = 65536 个符号。

2.Unicode 码表

世界上这么多国家,存在着多种码表,同一个二进制数字可以被解释成不同的符号。因此,要想打开一个文本文件,就必须知道它对应的码表,否则用错误的码表解读,就会出现乱码。

可以想象,如果有一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,那么乱码问题就会消失。这就是 Unicode,是一种所有符号的码表。

Unicode 现在的规模可以容纳 100 多万个符号。每个符号的编码都不一样。如,U+0041 表示英语的大写字母 A,U+4E25 表示汉字严(具体的符号对应表,可以查询 unicode.org,或者专门的 汉字对应表)。

以往一套码表对应一种编码方式。如 ASCII 中 8 bit 为一个字符,GB2312 中 16 bit 为一个字符。用了 Unicode 后就不行了,靠前的字符二进制数值小,靠后的字符二进制数值大。

若全部以最长字符的位数去编码,那靠前的字符就会出现许多 0 填充,造成了许多空间浪费。所以用了 Unicode 码表后,计算机要以多少位去编码就是一个问题。

3.UTF-8 编码(由 RFC 3629 定义)

首先 UTF-8 是 Unicode 的实现方式之一。其它实现方式还有 UTF-16((UCS-2)字符用两个字节或四个字节表示)和 UTF-32((UCS-4)字符用四个字节表示)

UTF-8 最大的一个特点,就是它是一种变长的编码方式。它使用 1~4 个字节表示一个符号,根据不同的符号而变化字节长度。

UTF-8 的编码规则很简单,只有二条:

对于单字节的符号,字节的第一位设为 0,后面 7 位为这个符号的 Unicode 码。因此对于英语字母,UTF-8 编码和 ASCII 码是相同的。

对于 n(n > 1)字节的符号,第一个字节的前 n 位都设为 1,第 n + 1 位设为0,后面字节的前两位一律设为 10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。

下表总结了编码规则,字母 x 表示可用编码的位。

Unicode符号范围 | UTF-8编码方式

(十六进制) | (二进制)

--------------------+---------------------------------------------

0000 0000-0000 007F | 0xxxxxxx

0000 0080-0000 07FF | 110xxxxx 10xxxxxx

0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx

0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

以汉字严为例

严的 Unicode 是 4E25(100111000100101)

根据上表,4E25 处在第三行的范围内(0000 0800 - 0000 FFFF),因此严的 UTF-8 编码需要三个字节,即格式是 1110xxxx 10xxxxxx 10xxxxxx。

从严的最后一个二进制位开始,依次从后向前填入格式中的 x,多出的位补 0。这样就得到了严的 UTF-8 编码 11100100 10111000 10100101,转换成十六进制就是 E4B8A5。

三、Java 基本数据类型

3eacf60b9fde2e9f986f25be422db54a.png

关于 boolean 型存储

Java 虚拟机中会将 boolean 映射到 int,使用 1 来表示 true,0 表示 false。

即 boolean 型占用 1 bit。

https://docs.oracle.com/javase/specs/jvms/se8/html/jvms-2.html#jvms-2.3.4

关于浮点型范围

关于自动拆装箱

关于类型转换

当在计算中有不同精度的数时,Java 会将低精度的操作数转换成高精度的操作数,然后进行运算。运算的结果也是高精度的值。

将一个高精度的值转换成低精度值的时,要确定这个高精度类型变量的值是否能够在低精度中表示。

低精度到高精度为自动类型转换((byte,short,char)--int--long--float--double)

高精度到低精度为强制类型转换

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值