数据类型
①整数:Python可以处理任意大小的整数;用十六进制表示整数时,十六进制用0x
前缀和0-9,a-f表示,例如:0xff00、0xa5b4c3d2等等。
②浮点数:也就是小数,之所以称为浮点数,是因为按照科学记数法表示时,一个浮点数的小数点位置是可变的。浮点数可以用数学写法,如1.23
,3.14
,-9.01
,等等。但是对于很大或很小的浮点数,就必须用科学计数法表示,把10用e替代,1.23x109就是1.23e9
,或12.3
e8
,0.000012可以写成1.2e-5,等等。
整数和浮点数在计算机内部存储的方式是不同的,整数运算永远是精确的(除法难道也是精确的?是的!),而浮点数运算则可能会有四舍五入的误差。
关于整数的除法为什么说是精确的解释:无论整数做//
除法还是取余数,结果永远是整数,所以说是精确的。
除法/ | 地板除// | 余数运算% | |
(被)除数类型 | 整数 | 整数 | 整数 |
计算结果 | 浮点数(9/3 结果为3.0) | 整数 | 整数(余数) |
![]() | ![]() | ![]() |
③字符串:以单引号'
或双引号”
括起来的任意文本。‘abc’(3个字符)、“I'm OK”(6个字符)
转义字符\可以转义很多字符,比如\n
表示换行,\t
表示制表符,字符\
本身也要转义,所以\\
表示的字符就是\
;为了简化,Python还允许用r''
表示''
内部的字符串默认不转义;Python允许用'''...'''
的格式表示多行内容。
(注:...是在输入一行内容换行时出现的提示符,不是代码的一部分)
④布尔值:一个布尔值只有True
、False
两种值;在Python中,可以直接用True
、False
表示布尔值(请注意大小写),也可以通过布尔运算计算出来。布尔值可以用and
、or
和not
运算。
布尔值经常用在条件判断中,比如:
if age >= 18:
print('adult')
else:
print('teenager')
⑤空值:空值是Python里一个特殊的值,用None
表示。None
不能理解为0
,因为0
是有意义的,而None
是一个特殊的空值。
⑥列表list[ ]:list是一种有序的集合,可以随时添加和删除其中的元素。
list的操作:a)、用索引(如:xx[0])来访问list中每一个位置的元素。
当索引超出了范围时,Python会报一个IndexError
错误,所以,要确保索引不要越界,记得最后一个元素的索引是len(classmates) - 1
。
如果要取倒数第一/二/三个元素,除了计算索引位置外,还可以用-1/-2/-3
做索引,直接获取。
b)、list是一个可变的有序表,所以,可以往list中追加/删减/改变元素。【可以是末尾,也可以是指定位置】
list.append(obj):在列表末尾添加新的对象。
list.insert(index,obj):将指定对象插入列表的指定位置。
list.pop(i):移除列表中的一个元素(默认最后一个元素),并且返回该元素的值。
要把某个元素替换成别的元素,可以直接赋值给对应的索引位置。
list注①:list里面的元素的数据类型也可以不同,比如
list注②:list元素也可以是另一个list
list.sort(cmp=None,key=None,reverse =False) 用于对原列表进行排序,如果指定参数,则使用比较函数指定的比较函数。
- cmp -- 可选参数, 如果指定了该参数会使用该参数的方法进行排序。
- key -- 主要是用来进行比较的元素,只有一个参数,具体的函数的参数就是取自于可迭代对象中,指定可迭代对象中的一个元素来进行排序。【注:key可以是一个函数!】
- reverse -- 排序规则,reverse = True 降序, reverse = False 升序(默认)。
def takeSecond(elem): return elem[1] random = [(2, 2), (3, 4), (4, 1), (1, 3)] random.sort(key=takeSecond) print('Sorted list:', random) # 返回为: Sorted list: [(4, 1), (2, 2), (1, 3), (3, 4)] #使用lambda表达式 a = [(1, 2), (4, 1), (9, 10), (13, -3)] a.sort(key=lambda x: x[1]) # lambda x: x[1] print(a) # 返回为: [(13, -3), (4, 1), (1, 2), (9, 10)]
⑦元组tuple( ):tuple和list非常类似,但是tuple一旦初始化就不能修改。tuple获取元素的方法和list是一样的,你可以正常地使用xx[0]
,xx[-1]
,但不能赋值成另外的元素。因为tuple不可变,所以代码更安全。如果可能,能用tuple代替list就尽量用tuple。
tuple的陷阱:只有1个元素的tuple定义时必须加一个逗号,
用来消除歧义。
定义tuple时,当输入如:
t = (1,2) 或 t = () 时,可以完成定义,得到的t的type即为tuple
但是,
输入如: t = (1) 时,得到的t的type 为int,原因:()也可表示数学运算中的小括号,造成歧义。
表面上看,tuple的元素确实变了,但其实变的不是tuple的元素,而是list的元素。。tuple一开始指向的list并没有改成别的list,所以,tuple所谓的“不变”是说,tuple的每个元素,指向永远不变。但指向的这个list本身是可变的!
变量&常量
在计算机程序中,变量不仅可以是数字,还可以是任意数据类型。变量名必须是大小写英文、数字和_
的组合,且不能用数字开头。
在Python中,等号=
是赋值语句,可以把任意数据类型赋值给变量,同一个变量可以反复赋值,而且可以是不同类型的变量。
这种变量本身类型不固定的语言称之为动态语言,与之对应的是静态语言。静态语言在定义变量时必须指定变量类型,如果赋值的时候类型不匹配,就会报错。(因此动态语言更灵活。)
x = 10
x = x + 2 #赋值语句先计算右侧的表达式x+2,得到结果12,再赋给变量x,即x经重新赋值变成了12
常量就是不能变的变量,比如常用的数学常数π就是个常量。在Python中,通常用全部大写的变量名表示常量。
字符编码
计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。一个字节byte能表示的最大的整数就是255(二进制11111111=十进制255)如果要表示更大的整数,就必须用更多的字节。
ASCII
编码:基本的大小写英文字母、数字和一些符号;
Unicode:常用的是用两个字节byte表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)
UTF-8:“可变长编码”。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字(= 一个中文字符)通常是3个字节,只有很生僻的字符才会被编码成4-6个字节
字符 | ASCII | Unicode | UTF-8 |
A | 01000001 | 00000000 01000001 | 01000001 |
中 | 无编码 | 01001110 00101101 | 11100100 10111000 10101101 |
注1:把ASCII编码的A
用Unicode编码,只需要在前面补0就可以,。但是,当文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。
注2:ASCII编码实际上可以被看成是UTF-8编码的一部分。
注3:在计算机内存中,统一使用Unicode编码,当需要保存到硬盘或者需要传输的时候,就转换为UTF-8编码。
注4:在最新的Python 3版本中,字符串是以Unicode编码的,也就是说,Python的字符串支持多语言。
ord():以一个字符(长度为1的字符串)作为参数,返回对应的 ASCII 数值,或者 Unicode 数值【返回值是对应的十进制整数】,如果所给的 Unicode 字符超出了你的 Python 定义范围,则会引发一个 TypeError 的异常。
chr():用一个范围在 range(256)内的(就是0~255)整数作参数,返回一个对应的字符。
由于Python的字符串类型是str
,在内存中以Unicode表示,一个字符对应若干个字节。如果要在网络上传输,或者保存到磁盘上,就需要把str
变为以字节为单位的bytes
。
Python对bytes
类型的数据用带b
前缀的单引号或双引号表示:
encode():【语法:str.encode(encoding=*, errors='strict'】 以 encoding 指定的编码格式编码字符串,该方法返回编码后的字符串,它是一个 bytes 对象。 换言之,str
通过encode()
方法可以编码为指定的bytes。
反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes
。要把bytes
变为str
,就需要用decode()
方法。
decode():【语法:str.decode(encoding=*, errors='strict'】以 encoding 指定的编码格式解码字符串。该方法返回解码后的字符串。如果bytes
中包含无法解码的字节,decode()
方法会报错。
如果bytes
中只有一小部分无效的字节,可以传入errors='ignore'
忽略错误的字节:
len():方法返回对象(字符、列表、元组等)长度或项目个数。(对象为str,则返回字符数,为bytes,则返回字节数)
在操作字符串时,我们经常遇到str
和bytes
的互相转换。为了避免乱码问题,应当始终坚持使用UTF-8编码对str
和bytes
进行转换。
由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。因此:
1、声明按照UTF-8编码读取源代码:
# -*- coding: utf-8 -*-
2、确保文本编辑器正在使用UTF-8 without BOM编码:
格式化
格式化法①:在Python中,采用的格式化方式用%实现。当文中出现%时,用%%
来表示一个%。
占位符 | 替换内容 |
---|---|
%d | 整数 |
%f | 浮点数 |
%s | 字符串 |
%x | 十六进制整数 |
有几个%?
占位符,后面就跟几个变量或者值,顺序要对应好。如果只有一个%?
,括号可以省略。
其中,格式化整数和浮点数还可以指定是否补0和整数与小数的位数:
print('%2d-%02d' % (3,1)) #返回:3-01
print('%.2f' % 3.1415926) #返回:3.14
修饰符 | 格式说明 |
%md | 以宽度m输出整型数,不足m时,左补空格 |
%0md | 以宽度m输出整型数,不足m时,左补零(右对齐!) |
%m.nf | 以宽度m输出实型小数,其中小数位为n位(即整数位数为m-n位) |
当实际数字宽度>给定的宽度,整数部分按实际显示,小数部分则四舍五入相应的位数。 |
格式化法②:str.format():格式化字符串的函数,基本语法是通过 {} 和 : 来代替以前的 %。
format 函数可以接受不限个参数,位置可以不按顺序。
字典dict
dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度。
如果用dict实现,只需要一个“名字”-“成绩”的对照表,直接根据名字查找成绩,无论这个表有多大,查找速度都不会变慢。
为什么dict查找速度这么快?
假设字典包含了1万个汉字,我们要查某一个字,一个办法是把字典从第一页往后翻,直到找到我们想要的字为止,这种方法就是在list中查找元素的方法,list越大,查找越慢。
dict则通过“字典”里的索引表查这个字对应的页码,然后直接翻到该页,给定一个名字,比如'Michael'
,dict在内部就可以直接计算出Michael
对应的存放成绩的“页码”,也就是95
这个数字存放的内存地址,直接取出来,所以速度非常快。
这种key-value存储方式,在放进去的时候,必须根据key算出value的存放位置,这样,取的时候才能根据key直接拿到value。
dict操作:
①、增加数据:直接放入(如:d[‘jack’] = 67 #往d字典里添加jack-67这组数据)
由于一个key只能对应一个value,所以,多次对一个key放入value,后面的值会把前面的值覆盖掉。
如果key不存在,dict就会报错。
②、