数据分析基础（1）

最新推荐文章于 2022-07-14 14:37:31 发布

lfhyon

最新推荐文章于 2022-07-14 14:37:31 发布

阅读量327

点赞数

分类专栏：数据分析与挖掘文章标签： python

数据分析与挖掘专栏收录该内容

9 篇文章 0 订阅

订阅专栏

PYTHON常见数据结构：

list、tuple、dict、set

-list:

--增

list.append(str)#用于在列表末尾追加新的对象

list.extend(list)#用于在列表末尾追加新的序列

--统计

list.count(某个元素)#统计列表中某个元素数量

list.index(某个元素)#找出某个元素的索引值

--插、删

list.insert(索引值，插入对象)

list.pop()#该方法是唯一一个既能修改列表→返回元素（除了None）的列表方法

list.remove(某元素值)#删除

list.sort(list)#排序

-tuple

元组不可变

--切片

tuple[index]#取元组相应索引值的元素

tuple[a:b:c]#a、b上下范围，c步长

-dict

字典的键必须是唯一的，如字符串与元组等

-set

A.union(B)#返回两个集合的并集

frozenset可以作为不可变的集合，用于字典的键

python函数中的*与**：

*arg代表可变数量的参数，为元组类型

**arg代表可变数量的参数，输入必须为字典类型

----------------------------------------------

Numpy常用方法

-数组创建方法

np.array(list,dtype=)#创建数组

np.arange(n)#0至n-1值的数组

np.ones(shape)#创建规模shape的数组，其中元素均为1

np.zero(shape)#创建规模shape的数组，其中元素均为0

np.fill(shape,val)#创建规模shape的数组，其中元素均为val

np.eye(n)#创建shape为（n,n）的数组，其中对角线的值为1

np.linspace(start,end,n)#在start-end范围内等间隔值创建n个元素的数组

-运算

np.abs(x)#计算元素绝对值

np.sqrt()#计算平方根

np.square()#计算平方

np.log()#计算指数

np.modify(x)#将数组x各个元素小数与整数部分以两个独立数组形式返回

np.exp(x)#将数组x各个元素进行指数运算

numpy array计算一般为数组整体运算或广播运算

-统计

np.mean(numpy_array，axis=?)#计算平均值,axis指示运算行（1）还是列（0）

np.corrcoef(A,B)#计算A与B的相关系数

np.std(numpy_array)#计算array的标准差

np.sum()#求和

np.sort()#排序

np.max(x,axis=)#取相应行或列的最大值

np.copysign(x,y)#将y元素符号赋值给x

-随机数据的产生

np.random.rand(shape)#创建范围[0,1]的形状为shape的数组

np.random.randn(shape)#创建范围[0,1]的形状为shape的数组，值满足标准正态分布

np.random.randin(low,high,shape)#创建范围[low,high]的形状为shape的数组

--数值分布

np.random.normal(均值,标准差,数量)#创建正态分布的数据

np.random.uniform(low,high,size)#创建均值分布的数据

np.random.possion(lam,size)#创建具泊松分布的数组，lam为随机事件发生概率

-----------------------------------------------

Pandas常用方法

-创建对象

pd.Series(list,index=,column=)#一维

pd.DataFrame(array,index=,column=)#二维

-查看数据

df.head()#查看frame的头部行

df.tail(n)#查看frame的尾部行

df.index()#显示列索引

df.column()#显示行索引

df.values()#显示值，返回数组形式

df.describle()#对每列进行全方面统计

df.T#转置

--按轴进行运算

df.sort_index(axis=1 or 0,ascending=布尔)#ascending=False则降序，反之

--按值进行运算

df.sort(column='index')#按某列索引进行排序

-选择

--获取数据

df.A与df.['A']效果一样

df.[0:3]#取0，1，2行数据，根据默认索引值取数据

df.[index:index]#根据实际索引值取数据

--通过标签进行选择

df.loc[index1:index2,:column_index1:column_index2]#根据根据实际索引标签进行取值，实际索引必须用[]包括起来如：

df.loc[:,[A,B]]

--通过数值进行选择

df.iloc[:,:]#索引值为默认数值

--布尔索引

df[df.A>0]#返回满足df.A.>0的索引行

df[df>0]#返回数值大于0的数组，小于0用NaN进行填充

df[df['E']isin(['two','four'])]#选择E列中值为two与four所对应的列

--设置

df.at[index1:index2,:column_index1:column_index2]#根据实际索引值进行选取，然后赋值

df.iat[:,:]#根据默认索引值进行选取，然后赋值

lfhyon

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录