UnicodeDecodeError—UTF-8 编码(Python 中的底层基础

4.2 UnicodeEncodeError & UnicodeDecodeError 根源

5 小结


1 概述


托勒密的地心说,稳定的统治西方的农业文明1400年;哥白尼的日心说出来,四百年都没到,大部分都是错的,他说太阳是宇宙的中心,然后太阳只是太阳系的中心,他说行星都围绕太阳转是正圆形轨道,然后,被开普勒证明是错的,应该是椭圆形轨道才对,牛顿的绝对时空说,只出来两百年,就被爱因斯坦的相对时空说挤到后排座了,然后爱因斯坦赶紧宣布,我的学说只是一个过渡。今天看来他说得很对,量子纠缠的超光速给了相对时空说一个沉重的打击。爱因斯坦说,宇宙就像一个打不开的表的表壳,我们只能站在外面逻辑模拟他,永远得不到这表真真是怎么运作的。我们能做的就是不断的模拟。

在中国,一切讲究学以致用,我们的科学也属于实用科学,大家都只关心实用,比如学习Python,根本不愿意抽时间去了解他的底层逻辑,其实就是地基。地基牢固了,楼房可以建得很高,而不会遥遥欲坠。

2 基本概念


2.1 字符(Character)

在电脑和电信领域中,字符是一个信息单位,它是各种文字和符号的总称,包括各国家文字、标点符

号、图形符号、数字等。比如,一个汉字,一个英文字母,一个标点符号等都是一个字符。

2.2 字符集(Character set)

字符集是字符的集合。字符集的种类较多,每个字符集包含的字符个数也不同。比如,常见的字符集有 ASCII 字符集、GB2312 字符集、Unicode 字符集 等,其中, ASCII 字符集 共有 128 个字符,包 含可显示字符(比如英文大小写字符、阿拉伯数字)和控制字符(比如空格键、回车键); GB2312 字 符集 是中国国家标准的简体中文字符集,包含简化汉字、一般符号、数字等; Unicode 字符集 则包含了世界各国语言中使用到的所有字符。

2.3 字符编码(Character encoding)

字符编码,是指对于字符集中的字符,将其编码为特定的二进制数,以便计算机处理。常见的字符编码 有 ASCII 编码, UTF-8 编码, GBK 编码等。一般而言,字符集和字符编码往往被认为是同义的概 念,比如,对于字符集 ASCII ,它除了有「字符的集合」这层含义外,同时也包含了「编码」的含 义,也就是说,ASCII 既表示了字符集也表示了对应的字符编码。

  • 19
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值