Python学习之:字符编码的区别与介绍

说到计算机语言,其实追究到最底层的电路元件,其实就两个状态,要么通电,要么不通电,所以,最根本的计算机语言其实就是用0和1表示。

数字的话,二进制其实很好理解,满二进一。所以数字可以很容易的转化为计算机语言,但是英文字母和符号的话怎么办呢?

这时候就出来了一张表,英文名简写 ASCII 。中文名是 美国信息交换标准代码。

但是ASCII码能表示的数字只有0~255. 其中英文26个字母加数字加各种符号占去了127位,还剩120多位的扩展要怎么表示中文呢?

在1980年出来一个GB2312,能表示7000多个汉字。其实就是在ASCII码的基础上的扩展,在ASCII码剩余120多个位置中,有指定的位置表示中文,直接指向另一张表,就是这个GB2312.

但是7000多个汉字对比我们5000年的文化来说,还是不够啊。因此,在1995年的时候,在GB2312的基础上,做了一个升级,GBK1.0 。能表示2万多个汉字。这对于普通人日常所需肯定是已经够了,但是有些特殊职业会用到一些特别生僻的汉字,怎么办呢?

在2000年,又推出一个升级款GB18030 。能表示27000多个汉字。但是这个只能表示中文,其他国家的语言怎么办呢?

在1990年开始研发一个所有国家都能用的计算机编码。1994年的时候正式发布。就是Unicode。中文名 :万国码!~

Unicode和ASCII的区别有哪些呢,ASCII码一个字符表示一个字节也就是1bytes。Unicode一个字符表示2bytes。但是英文一个字符就是1bytes怎么办呢?

因此就出来 utf-8 :en-1bytes , zh-3bytes


再来说说Python3和Python2在字符处理上的不同。

Python3默认就是通过utf-8去处理的字符。但是Python2不是,如果直接在Python2里使用中文,会直接报错 Non-ASCII character 。
如果要在Python2里使用中文,官方文档也给了解决办法。就是在最开头加一句就好了:

# -*- coding:utf-8 -*-

通过书籍Python基础整理记录

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值