unicode和ISO 8859-1

最新推荐文章于 2022-03-08 15:45:52 发布

Cookie-kimi

最新推荐文章于 2022-03-08 15:45:52 发布

阅读量908

点赞数

分类专栏：编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kobe269/article/details/23182309

版权

本文介绍了Unicode编码的发展，包括其固定长度和附加字符编码，以及UTF-8、UCS-2和UTF-16三种实现方式。重点阐述了UTF-8和UCS-2的优缺点，以及它们在不同平台和应用中的使用情况。同时，讨论了ISO/IEC 8859-1字符集，主要服务于西欧语言，并指出在面对多语言需求时，Unicode的优势更为明显。

摘要由CSDN通过智能技术生成

最初的unicode编码是固定长度的，16位，也就是2两个字节代表一个字符，这样一共可以表示65536个字符。显然，这样要表示各种语言中所有的字符是远远不够的。Unicode4.0规范考虑到了这种情况，定义了一组附加字符编码，附加字符编码采用2个16位来表示，这样最多可以定义1048576个附加字符，目前unicode4.0只定义了45960个附加字符。

Unicode只是一个编码规范，目前实际实现的unicode编码只要有三种：UTF-8,UCS-2和UTF-16，三种unicode字符集之间可以按照规范进行转换。

UTF-8

UTF-8是一种8位的unicode字符集，编码长度是可变的，并且是ASCII字符集的严格超集，也就是说ASCII中每个字符的编码在UTF-8中是完全一样的。UTF-8字符集中，一个字符可能是1个字节，2个字节，3个字节或者4个字节长。一般来说，欧洲的字母字符长度为1到2个字节，而亚洲的大部分字符则是3个字节，附加字符为4个字节长。

Unix平台中普遍支持UTF-8字符集，HTML和大多数浏览器也支持UTF-8，而window和java则支持UCS-2。

UTF-8的主要优点：

对于欧洲字母字符需要较少的存储空间。
容易从ASCII字符集向UTF-8迁移。

UCS-2

UCS-2是固定长度为16位的unicode字符集。每个字符都是2个字节，UCS-2只支持unicode3.0，所以不支持附加字符。

UCS-2的优点：

对于亚洲字符的存储空间需求比UTF-8少，因为每个字符都是2个字节。
处理字符的速度比UTF-8更快，因为是固定长度编码的。
对于windows和java的支持更好。

UTF-16

UTF-16也是一种16位编码的字符集。实际上，UTF-16就是UCS-2加上附加字符的支持，也就是符合unicode4.0规范的UCS-2。所以UTF-16是UCS-2的严格超集。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。