python学习心得--编码格式篇

计算机容量单位:

1位 = 1bit;

8bit = 1byte = 1字节 ;

1024bytes = 1kbytes =1KB;

1024KB = 1Million Bytes = 1MB = 1兆 ;

1024MB = 1Gigabytes ;

1024GB = 1TB ;

1024TB = 1PB;

ASCII码 (American Standard Code for Information Interchange,美国信息互换标准代码)。每一个字符统一都需要8个bit来存储,八位的字节一共可以组合出256(2的8次方)种,一直编到了第127号;从128到255这一页的字符集被称”扩展字符集”。

GB2312  是对 ASCII 的中文扩展。将127号之后的字符取消,重新编码建立映射关系,共组合出7000多汉字,以及其他国家特殊字符等。

GBK GBK 囊括了 GB2312 的所有内容,在此基础上增加了近20000个新的汉字(包括繁体字)和符号。

 GB18030 GBK扩展,加了几千个新的少数民族的字。

UNICODE  ISO(国际标谁化组织)废了所有的地区性编码方案,重新搞一个包括了地球上所有文化、所有字母和符号的编码!他们打算叫它”Universal Multiple-Octet Coded Character Set”,简称 UCS, 俗称 “UNICODE”。ISO规定必须用两个字节,也就是16位来统一表示所有的字符,对于ASCII里的那些”半角”字符,UNICODE 包持其原编码不变,只是将其长度由原来的8位扩展为16位,而其他文化和语言的字符则全部重新统一编码。由于”半角”英文符号只需要用到低8位,所以其高 8位永远是0,在保存英文文本时会多浪费一倍的空间。

UTF-8 UNICODE 在网络上传输,面向传输的众多 UTF(UCS Transfer Format)标准出现了,UTF8 就是每次8个位传输数据,而 UTF16 就是每次16个位,只不过为了传输时的可靠性,从UNICODE到 UTF时并不是直接的对应,而是要过一些算法和规则来转换。

 

转载于:https://www.cnblogs.com/yuanye100/p/8468726.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值