java String源码之char基础

最新推荐文章于 2023-06-08 12:01:17 发布

hhhebbb

最新推荐文章于 2023-06-08 12:01:17 发布

阅读量284

点赞数

分类专栏：源码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hhhebbb/article/details/89148437

版权

源码专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.char初探

char c = '我'

Java的char内部编码为UTF-16，

Java 的char用两字节存储，表示范围从 '\u0000' 到 '\uffff' ，也就是从0到65535。事实上，一个 char不能表示65535个字符，因为只有U+0000 到 U+D7FF 和 U+E000 到U+FFFF能用来表示一个完整的字符，这些叫做 BMP，另外的作为high surrogate和 low surrogate 拼接组成由4字节表示的字符。

在UTF-16编码中，大于U+10000码位将被编码为一对16比特长的码元，即按4个字节编码，此时char无法表示。utf16编码格式

所以Java的char只能表示utf16中的bmp部分字符。对于CJK（中日韩统一表意文字）部分扩展字符集则无法表示。

2.UTF-8 与UTF-16的区别

TF-16比较好理解,就是任何字符对应的数字都用两个字节来保存.我们通常对Unicode的误解就是把Unicode与UTF-16等同了.但是很显然如果都是英文字母这做有点浪费.明明用一个字节能表示一个字符为啥整两个啊.

于是又有个UTF-8,这里的8非常容易误导人,8不是指一个字节,难道一个字节表示一个字符?实际上不是.当用UTF-8时表示一个字符是可变的,有可能是用一个字节表示一个字符,也可能是两个,三个..反正是根据字符对应的数字大小来确定.

于是UTF-8和UTF-16的优劣很容易就看出来了.如果全部英文或英文与其他文字混合,但英文占绝大部分,用UTF-8就比UTF-16节省了很多空间.而如果全部是中文这样类似的字符或者混合字符中中文占绝大多数.UTF-16就占优势了,可以节省很多空间.另外还有个容错问题。

UTF-8读取

0xxxxxxx,如果是这样的01串,也就是以0开头后面是啥就不用管了XX代表任意bit.就表示把一个字节做为一个单元.就跟ASCII完全一样.

110xxxxx 10xxxxxx.如果是这样的格式,则把两个字节当一个单元

1110xxxx 10xxxxxx 10xxxxxx 如果是这种格式则是三个字节当一个单元.

utf-16读取

程序解析的时候知道是UTF-16就把两个字节当成一个单元来解析.这个很简单.

参考：https://www.cnblogs.com/fnlingnzb-learner/p/6163205.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java String源码之char基础

1.char初探char c = '我'Java的char内部编码为UTF-16，Java 的char用两字节存储，表示范围从 '\u0000' 到 '\uffff' ，也就是从0到65535。事实上，一个 char不能表示65535个字符，因为只有U+0000 到 U+D7FF 和 U+E000 到U+FFFF能用来表示一个完整的字符，这些叫做 BMP，另外的作为high surr...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。