unicode、utf区别

最新推荐文章于 2023-11-16 14:47:41 发布

h5_yan

最新推荐文章于 2023-11-16 14:47:41 发布

阅读量1.9k

点赞数

文章标签： java 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/h5_yan/article/details/127551346

版权

字符集

首先，我们要明确2个概念，字符集和字符编码。
字符集：ASCII、GB2312、GBK、Unicode
字符编码：UTF-8、UTF-16、UTF-32
由于ASCII、GB2312、GBK不需要转化，字符编码就是自己

字符集	字符编码	字节	字符个数
ASCII	ASCII	1(00到7F)	127
GB2312	兼容ASCII	2(0xA1A1-0x7E7E)	6763个汉字以及682个特殊符号
GBK	兼容GB2312	2(8140－FEFE)	汉字和图形符号21886个
Unicode	UTF-8、UTF-16、UTF-32	2(0000到FFFF)	65535
Unicode32	UTF-8、UTF-16、UTF-32	4(00000000到FFFFFFFF)	理论上42亿，接近无限，满足所有字符需求

相比于其他特地字符集，Unicode是大一统，初衷是涵盖世界上所有的字符集。

字符编码

UFT-8：一种变长的编码方案，使用 1~6 个字节来存储；
UFT-32：一种固定长度的编码方案，不管字符编号大小，始终使用 4 个字节来存储；
UTF-16：介于 UTF-8 和 UTF-32 之间，使用 2 个或者 4 个字节来存储，长度既固定又可变。

相比于Unicode固定字符的编码，UTF-8可以动态调整编码字节数，例如’a’在Unicode是2个字节，而UTF-8编码后是1个字节，在网络传输方面非常有优势。

在这里插入图片描述

当需要在内存中读取文件的时候，此时将utf-8编码的内存转换为unicode编码，在内存中进行统一处理；当需要保存文件的时候，出于空间和传输效率的考虑，此时将unicode编码转换为utf-8编码

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

h5_yan CSDN认证博客专家 CSDN认证企业博客

码龄13年

4: 原创

50万+: 周排名

65万+: 总排名

2845: 访问

: 等级

50: 积分

0: 粉丝

0: 获赞

2: 评论

2: 收藏

私信

关注

热门文章

最新评论

接口default实现 VS 借助抽象类
CSDN-Ada助手: 恭喜您写了第四篇博客！标题“接口default实现 VS 借助抽象类”真是引人入胜。我很喜欢您探讨接口默认实现和抽象类之间的比较，这是一个很有深度的话题。不过，我想提供一些建议，如果您愿意的话。下一步，您可以考虑从不同的编程语言角度来探讨这个话题，或者深入研究如何在实际项目中应用这些概念。期待您继续创作，并分享更多有趣的观点。谢谢您的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。