【GBK、UTF-8、ISO8859-1】三种编码方式总结
https://blog.csdn.net/YoungStar70/article/details/64117297
字符编码那点事:快速理解ASCII、Unicode、GBK和UTF-8
https://zhuanlan.zhihu.com/p/38333902
en-US和en-US.utf8的区别:
en-US和en-US.utf8的唯一区别是前者使用ISO-8859-1作为字符集,而后者使用UTF-8。更喜欢UTF-8。唯一的区别在于它们能代表什么样的字符。ISO-8859-1表示许多美国人共有的字符(英文字母表,加上几个带重音的字母),而UTF-8则编码所有Unicode,因此,几乎可以想到任何一种语言。如今,UTF-8实际上是一种文本标准编码。(这就是为什么你更喜欢它。)
UTF-8与ISO 8859-1区别:
UTF-8是一种多字节编码,可以表示任何Unicode字符。ISO 8859-1是一种单字节编码,可以表示前256个Unicode字符。两者编码ASCII的方式完全相同
-
ASCII: 7 bits. 128 code points.
-
ISO-8859-1: 8 bits. 256 code points.
-
UTF-8: 8-32 bits (1-4 bytes). 1,112,064 code points.
Both ISO-8859-1 and UTF-8 are backwards compatible with ASCII, but UTF-8 is not backwards compatible with ISO-8859-1:
#!/usr/bin/env python3
c = chr(0xa9)
print(c)
print(c.encode('utf-8'))
print(c.encode('iso-8859-1'))
Output:
©
b'\xc2\xa9'
b'\xa9'