编码格式总结

【GBK、UTF-8、ISO8859-1】三种编码方式总结

https://blog.csdn.net/YoungStar70/article/details/64117297

 

字符编码那点事:快速理解ASCII、Unicode、GBK和UTF-8

https://zhuanlan.zhihu.com/p/38333902

 

en-US和en-US.utf8的区别:

en-US和en-US.utf8的唯一区别是前者使用ISO-8859-1作为字符集,而后者使用UTF-8。更喜欢UTF-8。唯一的区别在于它们能代表什么样的字符。ISO-8859-1表示许多美国人共有的字符(英文字母表,加上几个带重音的字母),而UTF-8则编码所有Unicode,因此,几乎可以想到任何一种语言。如今,UTF-8实际上是一种文本标准编码。(这就是为什么你更喜欢它。)

 

UTF-8与ISO 8859-1区别:

UTF-8是一种多字节编码,可以表示任何Unicode字符。ISO 8859-1是一种单字节编码,可以表示前256个Unicode字符。两者编码ASCII的方式完全相同

  • ASCII: 7 bits. 128 code points.

  • ISO-8859-1: 8 bits. 256 code points.

  • UTF-8: 8-32 bits (1-4 bytes). 1,112,064 code points.

Both ISO-8859-1 and UTF-8 are backwards compatible with ASCII, but UTF-8 is not backwards compatible with ISO-8859-1:

#!/usr/bin/env python3

c = chr(0xa9)
print(c)
print(c.encode('utf-8'))
print(c.encode('iso-8859-1'))

Output:

©
b'\xc2\xa9'
b'\xa9'

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值