数据分析与可视化(python)

本文探讨了文本编码的历史,包括ASCII、GBK和Unicode,强调了UTF-8的广泛使用。此外,还介绍了Python中with语句的作用,读写纯文本和非纯文本文件的方法,以及base64编码和解码的原理及其应用。通过理解这些基础知识,能更好地进行数据分析和可视化工作。
摘要由CSDN通过智能技术生成

1.文本编码历史

print(‘中’.encode(encoding=‘gbk’)) -> b’\xd6\xd0’
gbk编码 :一个汉字两个字节
为了节省流量 国内有人仍坚持gbk
‘中’.encode(encoding=‘utf-8’)
对于中文,gbk比utf8节省三分之一的空间
解码: 二进制->自然信息
eg: b’\xd6\xd0’.decode(encoding=‘gbk’)

历史
我们看到的信息,例如一个文字‘中’,存储到电脑中,二进制。物理0-3v3-5v1.
编码 encoding:自然信息‘中’→二进制0101
解码 decoding:二进制→自然信息‘中’
1.上世纪电脑刚刚产生
内存、硬盘非常贵
最小信息单位1字节8bit位二进制1byte=01010101
1000byte 1kb 1000kb=1Mb 1000Mb=1Gb Tb Pb
’a‘->80000001
‘b’->0000010
‘c’->0000011
1byte8位,2的8次方,256种可能
把a-z,A-2,±()$#,把一百多种常见英文字母字符编进去,
发明了编码方式【ascii】
2.上世纪末电脑开始传入其它国家
欧洲,亚洲,中国大陆、中国台湾、日本、韩国
ascii编码无法表达中文。
用2个字节,2的16次方,65535种可能
‘一’ -> 00000000 00000001
‘中’ -> 00000010 00000101
编码常用的2w多种汉字
中国大陆发明编码方式【gbk2312】更新繁体字生僻字【gbk12302】,统称【gbk】
问题是,
中国台湾big5
'我’ -> 00000010

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值