为什么会出现utf8,gbk,iso8859-1那么多编码?

最新推荐文章于 2021-10-08 20:38:52 发布

cq_2333333

最新推荐文章于 2021-10-08 20:38:52 发布

阅读量975

点赞数 1

分类专栏：编码文章标签：编码 iso8859-1

本文链接：https://blog.csdn.net/qq_38229608/article/details/87774073

版权

编码专栏收录该内容

1 篇文章 0 订阅

订阅专栏

总结

历史原因

虽然现在呈现utf大一统的趋势,但是个个编码的特点还是有必要了解一下,以方便日常使用和理解

1. ascll:

ASCII收录了空格及94个“可印刷字符”，足以给英语使用。但是，其他使用拉丁字母的语言（主要是欧洲国家的语言），都有一定数量的附加符号字母

iso8859-1:

ISO-8859-1编码是单字节编码，向下兼容ASCII，ISO-8859-1收录的字符除ASCII收录的字符外，还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号。欧元符号出现的比较晚，没有被收录在ISO-8859-1当中。
因为ISO-8859-1编码范围使用了单字节内的所有空间，在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之，把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。这是个很重要的特性，MySQL数据库默认编码是Latin1就是利用了这个特性。ASCII编码是一个7位的容器，ISO-8859-1编码是一个8位的容器。
Latin1是ISO-8859-1的别名，有些环境下写作Latin-1。
iso8859-1编码表示的字符范围很窄,无法表示中文字符。但是,由于是单字节编码,和计算机最基础的表示单位一致,所以很多时候,仍旧使用 iso8859-1编码来表示。而且在很多协议上,默认使用该编码。比如,虽然"中文"两个字不存在iso8859-1编码,以gb2312编码为例,应该是"d6d0 cec4"两个字符,使用iso8859-1编码的时候则将它拆开为4个字节来表示:“d6 d0 ce c4”(事实上,在进行存储的时候,也是以字节为单位处理的)。而如果是UTF编码,则是6个字节"e4 b8 ad e6 96 87"。很明显,这种表示方法还需要以另一种编码为基础(作为通用传输编码)

- 不同编码的中英文字节比例

gbk 2:1
中文:英文

utf 3:1
中文:英文

如有不同意见和建议欢迎留言或者私信

cq_2333333

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
为什么会出现utf8,gbk,iso8859-1那么多编码?

总结历史原因虽然现在呈现utf大一统的趋势,但是个个编码的特点还是有必要了解一下,以方便日常使用和理解1. ascll:ASCII收录了空格及94个“可印刷字符”，足以给英语使用。但是，其他使用拉丁字母的语言（主要是欧洲国家的语言），都有一定数量的附加符号字母iso8859-1:ISO-8859-1编码是单字节编码，向下兼容ASCII，ISO-8859-1收录的字符除ASC...
复制链接

扫一扫