常用编码格式,汉字和字母分别占用多大空间

注意:

        在中文操作系统上,ANSI(美国国家标准学会、AMERICAN NATIONAL STANDARDS INSTITUTE: ANSI)编码即为 GBK;

        在英文操 作系统上,ANSI 编码即为 ISO-8859-1。

1.常用编码格式

  • ASCII (ASCII编码表一个字节表示,一个128个字符,实际上一个字节可以表示256个字符,只用128个)
  • Unicode (Unicode编码表固定大小的编码使用两个字节来表示字符,字母和汉字统一都是占用两个字节这样浪费空间)
  • utf-8(编码表,大小可变的编码字母使用1个字节,汉字使用3个字节)
  • gbk(可以表示汉字,而且范围广,字母使用1个字节,汉字2个字节)

2.ASCII

缺点:不能表示所有字符。

ASCII码:上个世纪60年代,美国制定了一套字符编码(使用一个字),对英语字符与二进制位之间的关系,做了统一规定。这被称为ASCII码。ASCII码一共规定了128个字符的编码,只占用了一个字节的后面七位,最前面的1位统一规定为0。

特别提示:一个字节可以表示256个字符,ASCII码只用了128个字符
看一个完整的ASCII码表(可以自行百度)

3.Unicode

  • Unicode的好处:一种编码,将世界上所有的符号都纳入其中。每一个符号都给予一个独一无二的编码,使用Unicode没有乱码的问题。
  • Unicode的缺点:一个英文字母和一个汉字都占用2个字节,这对于存储空间来说是浪费。
  • 2的16次方是65536,所以最多编码是65536个字符。
  • 编码0-127的字符是与ASCII的编码一样.比如 'a'在ASCII码是Ox61,在unicode码是ox0061,都对应97.因此 Unicode码兼容ASCII码.

4.UTF-8

  •  UTF-8是在互联网上使用最广的一种 Unicode的实现方式(改进)
  • UTF-8是一种变长的编码方式。它可以使用1-6个字节表示一个符号,根据不同的符号而变化字节长度。
  • 使用大小可变的编码字母占1个字节,汉字占3个字节

5.GBK

 6.ISO-8859-1

7.编码与解码

8.字符编码

就是一套自然语言的字符与二进制数之间进行编码解码的对应规则。

9.字符集

也叫编码表。是一个系统支持的所有字符的集合,包括各国家文字、标点符 号、图形符号、数字等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值