今天主要内容:
. is 和== 的区别
. 编程的问题
一. is和==的区别!
is 比较的是内存地址
== 比较的是值
记住结果就好
⑴id
通过id() 我们查看到一个变量表示的值在内存中的地址.
小数据池:把我们使用过的值存储在小数据池中,供其他变量使用
小数据池只能数字和字符串使用
int 数字 :-5~256 是会被加到小数据池中的,每次使用都是同一个对象.
str 字符串:
1,如果是纯文字信息和下划线,name这个对象会被添加到小数据池
2,如果是带有特殊字符的,那么不会被添加到小数据池,每次都是新的
3,如果是单一字母*n的情况,'a'*20 , 在20个单位内是可以的,超过20个单位就不会添加到小树池中
注意(⼀一般情况下): 在py⽂文件中. 如果你只是单纯的定义⼀一个字符串串. 那么⼀一般情况下都是会 被添加到⼩小数据池中的. 我们可以这样认为: 在使⽤用字符串串的时候, python会帮我们把字符串串 进⾏行行缓存, 在下次使⽤用的时候直接指向这个字符串串即可. 可以节省很多内存.
这个问题千万不要纠结. 因为官⽅方没有给出⼀一个完美的结论和定论.所以只能是⾃自⼰己摸索.
说了了这么多. 这个id()和is有什什么关系呢. 注意. is⽐比较的就是id()计算出来的结果. 由于id是帮我 们查看某数据(对象) 的内存地址. 那么is⽐比较的就是数据(对象)的内存地址. 最终我们通过is可以查看两个变量量使⽤用的是否是同⼀一个对象.
== 双等表⽰示的是判断是否相等, 注意. 这个双等⽐比较的是具体的值.⽽而不是内存地址
s1 = "哈哈" s2 = "哈哈" print(s1 == s2) # True print(s1 is s2) # True 原因是有⼩小数据池的存在 导致两个变量量指向的是同⼀一个对象 l1 = [1, 2, 3] l2 = [1, 2, 3] print(l1 == l2) # True, 值是⼀一样的 print(l1 is l2) # False, 值是假的
二 编码的补充
回顾一下编码
1.ASCII 8bit 1byte (最早的编码,里面有英文大写字母,小写字母,数字,一些特殊字符,没有中文.
2.GBK 16bit 2byte (中文国标码,里面包含了ASCII编码和中文常用编码,
3.UNICODE 32bit 4byte ( 万国码,浪费空间
4.UTF-8 :可变长度的万国码,是UNICODE的一种实现,最小字符占8位.
1.英文:8bit 1byte
2,欧洲文字: 16bit 2byte
3,中文: 24bit 3byte
综上, 除了了ASCII码以外, 其他信息不能直接转换.
在python3的内存中. 在程序运⾏行行阶段. 使⽤用的是unicode编码. 因为unicode是万国码. 什什么内 容都可以进⾏行行显⽰示. 那么在数据传输和存储的时候由于unicode⽐比较浪费空间和资源. 需要把 unicode转存成UTF-8或者GBK进⾏行行存储. 怎么转换呢. 在python中可以把⽂文字信息进⾏行行编码. 编码之后的内容就可以进⾏行行传输了了. 编码之后的数据是bytes类型的数据.其实啊. 还是原来的 数据只是经过编码之后表现形式发⽣生了了改变⽽而已.
bytes的表现形式:
1. 英⽂文 b'alex' 英⽂文的表现形式和字符串串没什什么两样
2. 中⽂文 b'\xe4\xb8\xad' 这是⼀一个汉字的UTF-8的bytes表现形式
字符串串在传输时转化成bytes=> encode(字符集)来完成
s = "alex" print(s.encode("utf-8")) # 将字符串串编码成UTF-8 print(s.encode("GBK")) # 将字符串串编码成GBK 结果: b'alex' b'alex' s = "中" print(s.encode("UTF-8")) # 中⽂文编码成UTF-8 print(s.encode("GBK")) # 中⽂文编码成GBK 结果: b'\xe4\xb8\xad' b'\xd6\xd0'
记住: 英⽂文编码之后的结果和源字符串串⼀一致. 中⽂文编码之后的结果根据编码的不同. 编码结果 也不同. 我们能看到. ⼀一个中⽂文的UTF-8编码是3个字节. ⼀一个GBK的中⽂文编码是2个字节.