4.2 UnicodeEncodeError & UnicodeDecodeError 根源
5 小结
1 概述
托勒密的地心说,稳定的统治西方的农业文明1400年;哥白尼的日心说出来,四百年都没到,大部分都是错的,他说太阳是宇宙的中心,然后太阳只是太阳系的中心,他说行星都围绕太阳转是正圆形轨道,然后,被开普勒证明是错的,应该是椭圆形轨道才对,牛顿的绝对时空说,只出来两百年,就被爱因斯坦的相对时空说挤到后排座了,然后爱因斯坦赶紧宣布,我的学说只是一个过渡。今天看来他说得很对,量子纠缠的超光速给了相对时空说一个沉重的打击。爱因斯坦说,宇宙就像一个打不开的表的表壳,我们只能站在外面逻辑模拟他,永远得不到这表真真是怎么运作的。我们能做的就是不断的模拟。
在中国,一切讲究学以致用,我们的科学也属于实用科学,大家都只关心实用,比如学习Python,根本不愿意抽时间去了解他的底层逻辑,其实就是地基。地基牢固了,楼房可以建得很高,而不会遥遥欲坠。
2 基本概念
2.1 字符(Character)
在电脑和电信领域中,字符是一个信息单位,它是各种文字和符号的总称,包括各国家文字、标点符
号、图形符号、数字等。比如,一个汉字,一个英文字母,一个标点符号等都是一个字符。
2.2 字符集(Character set)
字符集是字符的集合。字符集的种类较多,每个字符集包含的字符个数也不同。比如,常见的字符集有 ASCII 字符集、GB2312 字符集、Unicode 字符集 等,其中, ASCII 字符集 共有 128 个字符,包 含可显示字符(比如英文大小写字符、阿拉伯数字)和控制字符(比如空格键、回车键); GB2312 字 符集 是中国国家标准的简体中文字符集,包含简化汉字、一般符号、数字等; Unicode 字符集 则包含了世界各国语言中使用到的所有字符。
2.3 字符编码(Character encoding)
字符编码,是指对于字符集中的字符,将其编码为特定的二进制数,以便计算机处理。常见的字符编码 有 ASCII 编码, UTF-8 编码, GBK 编码等。一般而言,字符集和字符编码往往被认为是同义的概 念,比如,对于字符集 ASCII ,它除了有「字符的集合」这层含义外,同时也包含了「编码」的含 义,也就是说,ASCII 既表示了字符集也表示了对应的字符编码。