数据分析基础(1)

PYTHON常见数据结构:

list、tuple、dict、set

-list:

--增

list.append(str)#用于在列表末尾追加新的对象

list.extend(list)#用于在列表末尾追加新的序列

--统计

list.count(某个元素)#统计列表中某个元素数量

list.index(某个元素)#找出某个元素的索引值

--插、删

list.insert(索引值,插入对象)

list.pop()#该方法是唯一一个既能修改列表→返回元素(除了None)的列表方法

list.remove(某元素值)#删除

list.sort(list)#排序

-tuple

元组不可变

--切片

tuple[index]#取元组相应索引值的元素

tuple[a:b:c]#a、b上下范围,c步长

-dict

字典的键必须是唯一的,如字符串与元组等

-set

A.union(B)#返回两个集合的并集

frozenset可以作为不可变的集合,用于字典的键


python函数中的*与**:

*arg代表可变数量的参数,为元组类型

**arg代表可变数量的参数,输入必须为字典类型

----------------------------------------------

Numpy常用方法

-数组创建方法

np.array(list,dtype=)#创建数组

np.arange(n)#0至n-1值的数组

np.ones(shape)#创建规模shape的数组,其中元素均为1

np.zero(shape)#创建规模shape的数组,其中元素均为0

np.fill(shape,val)#创建规模shape的数组,其中元素均为val

np.eye(n)#创建shape为(n,n)的数组,其中对角线的值为1

np.linspace(start,end,n)#在start-end范围内等间隔值创建n个元素的数组

-运算

np.abs(x)#计算元素绝对值

np.sqrt()#计算平方根

np.square()#计算平方

np.log()#计算指数

np.modify(x)#将数组x各个元素小数与整数部分以两个独立数组形式返回

np.exp(x)#将数组x各个元素进行指数运算

numpy array计算一般为数组整体运算或广播运算

-统计

np.mean(numpy_array,axis=?)#计算平均值,axis指示运算行(1)还是列(0)

np.corrcoef(A,B)#计算A与B的相关系数

np.std(numpy_array)#计算array的标准差

np.sum()#求和

np.sort()#排序

np.max(x,axis=)#取相应行或列的最大值

np.copysign(x,y)#将y元素符号赋值给x

-随机数据的产生

np.random.rand(shape)#创建范围[0,1]的形状为shape的数组

np.random.randn(shape)#创建范围[0,1]的形状为shape的数组,值满足标准正态分布

np.random.randin(low,high,shape)#创建范围[low,high]的形状为shape的数组

--数值分布

np.random.normal(均值,标准差,数量)#创建正态分布的数据

np.random.uniform(low,high,size)#创建均值分布的数据

np.random.possion(lam,size)#创建具泊松分布的数组,lam为随机事件发生概率

-----------------------------------------------

Pandas常用方法

-创建对象

pd.Series(list,index=,column=)#一维

pd.DataFrame(array,index=,column=)#二维

-查看数据

df.head()#查看frame的头部行

df.tail(n)#查看frame的尾部行

df.index()#显示列索引

df.column()#显示行索引

df.values()#显示值,返回数组形式

df.describle()#对每列进行全方面统计

df.T#转置

--按轴进行运算

df.sort_index(axis=1 or 0,ascending=布尔)#ascending=False则降序,反之

--按值进行运算

df.sort(column='index')#按某列索引进行排序

-选择

--获取数据

df.A与df.['A']效果一样

df.[0:3]#取0,1,2行数据,根据默认索引值取数据

df.[index:index]#根据实际索引值取数据

--通过标签进行选择

df.loc[index1:index2,:column_index1:column_index2]#根据根据实际索引标签进行取值,实际索引必须用[]包括起来如:

df.loc[:,[A,B]]

--通过数值进行选择

df.iloc[:,:]#索引值为默认数值

--布尔索引

df[df.A>0]#返回满足df.A.>0的索引行

df[df>0]#返回数值大于0的数组,小于0用NaN进行填充

df[df['E']isin(['two','four'])]#选择E列中值为two与four所对应的列

--设置

df.at[index1:index2,:column_index1:column_index2]#根据实际索引值进行选取,然后赋值

df.iat[:,:]#根据默认索引值进行选取,然后赋值


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值