ASCII/GBK/Unicode/UTF-8编码问题

这是个很烦人的问题,看了几篇文章都没怎么搞懂,但还是想记录一下自己了解的东西。

 

ASCII码:一个字节,即8位。分为标准和不标准两种,标准的最高位为0,剩下7位共可以表示128种字符,美国够用了;而后来流传到欧洲国家就不够用了,他们用上了最高位,兼容标准的ASCII,共256种。

GBK:中国为了兼容中文而制定的编码规则,兼容ASCII,用一个字节表示ASCII,用两个字节表示中文。

Unicode:统一联盟国际组织提出的为了兼容世界上所有语言的编码规则。但Unicode只规定了编码,没规定怎么传输/保存编码,如某个字符占两个字节,但当你拿到这两个字节时你不知道这是两个字节表示的一个字符还是说是两个字符拼接在一起了。

UTF-8:Unicode的一种实现方式,就好像英语是国际通用语言,而各个国家再把英语翻译成自己的语言。Unicode就像英语,而UTF-8就像翻译出来的语言。UTF-8有特定的存储方式,可以区分不同字节数的字符。

UTF-8/GBK---解码-->Unicode;Unicode---编码-->UTF-8/GBK

有时候用python处理表格什么的时候,想把某些值转成str会报错说‘ascii codec can't encode characters in position。。。’

这是因为str()默认是执行s.encode('ascii')的,因此若某些字符非ascii兼容的就会出错,如u'你好',因此要手动s.encode('gbk')或s.encode('utf-8')。

遇到什么问题我再在这里记录。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值