各类编码格式中汉字和字母所占字节数

编码格式:

1、ASII:美国标准信息交换码,用一个字节的7位可以表示;
2、ISO8859-1:拉丁码表,欧洲码表,用一个字节的8位可以表示;
3、GBK2312:中国的中文编码表,最多两个字节编码所有字符;
4、GBK:中国的中文编码表升级,融合了更多的中文文字字符,最多两个字节编码;
5、Unicode:国际标准码,融合了目前人类使用的所有字符,为每个字符分配唯一的字符码,所有的文字都用两个字节来表示;
6、utf-8:变长的编码方式,可用1-4个字节来表示一个字符。现在最多的又有6个字节;
7、utf-16:中文和字母都是占2个字节。
8、utf-32:中文和字母都是占4个字节。

简略展示

在这里插入图片描述

详细解析

ASCII编码:ASCII编码是一种最早的字符编码方式,它只能表示英文字母、数字和一些符号,每个字符占用一个字节(8位)的空间。

GB2312编码:GB2312是中国国家标准制定的中文字符集,其中包含了7500个常用汉字和682个非汉字字符。GB2312采用双字节编码,每个汉字占用两个字节,每个非汉字字符占用一个字节。

GBK编码:GBK是GB2312的扩展,它能够表示更多的汉字和符号。GBK同样采用双字节编码,每个汉字占用两个字节,而一些罕用汉字则使用四个字节来表示。对于非汉字字符,GBK与GB2312兼容,仍然占用一个字节。

UTF-8编码:UTF-8是一种变长编码方式,它能够表示Unicode字符集中的所有字符,包括汉字、拉丁字母、数字、符号等等。在UTF-8中,英文字母和数字占用一个字节,汉字占用三个字节,一些特殊的符号可能占用更多的字节。

UTF-16编码:UTF-16(Unicode Transformation Format-16)是一种Unicode字符编码方案,每个字符使用16位(2个字节)来表示。

需要注意的是,上述编码格式中的字节数只是大致的估计,具体的实现可能会有所不同。此外,还有一些其他的编码格式,如UTF-32等,它们对于每个字符都采用固定的四个字节来表示,但是在实际应用中使用较少。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值