python基础2(字符编码)

本文介绍了字符编码的基础知识,包括ASCII、GBK和UTF-8的区别。ASCII包含128个字符,主要用于英文;GBK是中文扩展编码,支持21003个汉字;UTF-8是一种多字节编码,广泛用于国际字符集,对英文使用1个字节,中文使用3个字节。此外,还讨论了Unicode编码,其覆盖全球所有语言,但较为占用空间。
摘要由CSDN通过智能技术生成

字符编码:

  • ASCII:(百度解释)美国(国家)信息交换标准(代)码,一种使用7个或8个二进制位进行编码的方案,最多可以给256个字符(包括字母、数字、标点符号,控制字符及其他符号)分配(或指定)数值,基本的 ASCII字符集共有 128 个字符,其中有 96 个可打印字符,包括常用的字母、数字、标点符号等,另外还有 32 个控制字符。

个人理解:共128个字符,包括英语字母,数字和特殊符号,

#  在python中转换字符编码的方法
ord('A')
#输出为65
ord('中')
#输出为20013
chr(66)
#输出为'B'
chr(25991)
#输出为'文'
  • GBK:GBK即汉字内码扩展规范,K为扩展的汉语拼音中“扩”字的声母。英文全称Chinese Internal Code Specification。GBK编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,1980年由国家标准总局发布。基本集共收入汉字6763个和非汉字图形字符682个,通行于中国大陆。新加坡等地也使用此编码。GBK是对GB2312-80的扩展,也就是CP936字码表 (Code Page 936)的扩展(之前CP936和GB 2312-80一模一样)

个人理解:GB是国标的缩写,GBK包含全部中文字符,不论中英文都是双字节的,但没有utf-8多且常用。

  • UTF-8:UTF-8 编码是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8 节省空间。另外,如果是外国人访问你的GBK网页,需要下载中文语言包支持。访问UTF-8编码的网页则不出现这问题,可以直接访问。

  • Unicode:万国码,包含世界上所有语言符号,用4个字节存储一个符号,比较浪费空间。

参照:UTF-8和GBK有什么区别?_百度知道 (baidu.com)

字符编码_百度百科 (baidu.com)

(此外,还有一些字符编码我们不常用,所以就没有列出)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值