PYTHON常见数据结构:
list、tuple、dict、set
-list:
--增
list.append(str)#用于在列表末尾追加新的对象
list.extend(list)#用于在列表末尾追加新的序列
--统计
list.count(某个元素)#统计列表中某个元素数量
list.index(某个元素)#找出某个元素的索引值
--插、删
list.insert(索引值,插入对象)
list.pop()#该方法是唯一一个既能修改列表→返回元素(除了None)的列表方法
list.remove(某元素值)#删除
list.sort(list)#排序
-tuple
元组不可变
--切片
tuple[index]#取元组相应索引值的元素
tuple[a:b:c]#a、b上下范围,c步长
-dict
字典的键必须是唯一的,如字符串与元组等
-set
A.union(B)#返回两个集合的并集
frozenset可以作为不可变的集合,用于字典的键
python函数中的*与**:
*arg代表可变数量的参数,为元组类型
**arg代表可变数量的参数,输入必须为字典类型
----------------------------------------------
Numpy常用方法
-数组创建方法
np.array(list,dtype=)#创建数组
np.arange(n)#0至n-1值的数组
np.ones(shape)#创建规模shape的数组,其中元素均为1
np.zero(shape)#创建规模shape的数组,其中元素均为0
np.fill(shape,val)#创建规模shape的数组,其中元素均为val
np.eye(n)#创建shape为(n,n)的数组,其中对角线的值为1
np.linspace(start,end,n)#在start-end范围内等间隔值创建n个元素的数组
-运算
np.abs(x)#计算元素绝对值
np.sqrt()#计算平方根
np.square()#计算平方
np.log()#计算指数
np.modify(x)#将数组x各个元素小数与整数部分以两个独立数组形式返回
np.exp(x)#将数组x各个元素进行指数运算
numpy array计算一般为数组整体运算或广播运算
-统计
np.mean(numpy_array,axis=?)#计算平均值,axis指示运算行(1)还是列(0)
np.corrcoef(A,B)#计算A与B的相关系数
np.std(numpy_array)#计算array的标准差
np.sum()#求和
np.sort()#排序
np.max(x,axis=)#取相应行或列的最大值
np.copysign(x,y)#将y元素符号赋值给x
-随机数据的产生
np.random.rand(shape)#创建范围[0,1]的形状为shape的数组
np.random.randn(shape)#创建范围[0,1]的形状为shape的数组,值满足标准正态分布
np.random.randin(low,high,shape)#创建范围[low,high]的形状为shape的数组
--数值分布
np.random.normal(均值,标准差,数量)#创建正态分布的数据
np.random.uniform(low,high,size)#创建均值分布的数据
np.random.possion(lam,size)#创建具泊松分布的数组,lam为随机事件发生概率
-----------------------------------------------
Pandas常用方法
-创建对象
pd.Series(list,index=,column=)#一维
pd.DataFrame(array,index=,column=)#二维
-查看数据
df.head()#查看frame的头部行
df.tail(n)#查看frame的尾部行
df.index()#显示列索引
df.column()#显示行索引
df.values()#显示值,返回数组形式
df.describle()#对每列进行全方面统计
df.T#转置
--按轴进行运算
df.sort_index(axis=1 or 0,ascending=布尔)#ascending=False则降序,反之
--按值进行运算
df.sort(column='index')#按某列索引进行排序
-选择
--获取数据
df.A与df.['A']效果一样
df.[0:3]#取0,1,2行数据,根据默认索引值取数据
df.[index:index]#根据实际索引值取数据
--通过标签进行选择
df.loc[index1:index2,:column_index1:column_index2]#根据根据实际索引标签进行取值,实际索引必须用[]包括起来如:
df.loc[:,[A,B]]
--通过数值进行选择
df.iloc[:,:]#索引值为默认数值
--布尔索引
df[df.A>0]#返回满足df.A.>0的索引行
df[df>0]#返回数值大于0的数组,小于0用NaN进行填充
df[df['E']isin(['two','four'])]#选择E列中值为two与four所对应的列
--设置
df.at[index1:index2,:column_index1:column_index2]#根据实际索引值进行选取,然后赋值
df.iat[:,:]#根据默认索引值进行选取,然后赋值