数据科学包学习第三天

最新推荐文章于 2022-07-24 16:56:46 发布

大牛李

最新推荐文章于 2022-07-24 16:56:46 发布

阅读量209

点赞数 1

分类专栏： python学习笔记

本文链接：https://blog.csdn.net/qq_39818331/article/details/107773525

版权

python学习笔记专栏收录该内容

28 篇文章 1 订阅

订阅专栏

一.索引与多重索引：

1.索引：
①.一维数组：
在这里插入图片描述
首先创建一维数组s，索引为abced。
s.index为输出一维数组的索引，s.index.name="alpha"是为索引命名。

②.二维数组:
在这里插入图片描述
创建二维数组，列索引为one，two，three。
df.index与df.columns分别为显示行索引与列索引。
df.columns.name="col"与df.index.name="row"分别为列索引命名为col，行索引命名为row。最终数出新的df。

③.重复索引：
在这里插入图片描述
首先创建一维数组s，索引为abcbda，这是索引中出现重复的值，从第一个输出即可看出。
s.index.is_unique为判断该数组的索引是否唯一。
s.index.unique（）为输出唯一的索引。
s.groupby(s.index).sum()为相同的索引值，则相加在一起，groupby后续会讲到。

2.多级索引：
①.一维数组：
在这里插入图片描述
创建一维数组s，索引index为上面定义的index，输出的列表拥有一级索引和二级索引。当索引第一级时，则会输出一级索引所包含的二级索引。若只索引二级索引，则会输出全部的一级索引。

2.二维数组：
在这里插入图片描述
创建二维数组，行索引与列索引都设置为多级索引。
df.loc[“a”]为输出df的第一级a索引。
df.loc[“a”,1]为输出df第一级索引a和第二级索引1.
df.swaplevel(“row-1”,“row-2”)为将列索引调换位置。
同时，还可以进行相加操作，df.sum(level=0)为第一级索引相加，即第二级索引中，a与b中的值相加，df.sum(level=1)为第二级索引相加。

在这里插入图片描述
前一张图中所创建的多级索引过于繁琐，这张图中，可以像普通创建二维数组一样，当创建df后，可以将数组中所在的列的其中一个或者两个作为一级索引和二级索引。

二.分组计算：

分组计算三部曲：拆分 -> 应用 -> 合并
拆分：根据什么进行分组？
应用：每个分组进行什么样的计算？
合并：把每个分组的计算结果合并起来。
在这里插入图片描述
①.按行分组：

创建二维数组df，可以按行分组，df[“data1”].groupby(df[“key1”]).sum()为按照key1进行行分组后，data1进行相加。还可以自己设定分组标准，如key_1。同时，还可以两级分组，df[“data1”].groupby([df[“key1”],df[“key2”]]).sum()
在这里插入图片描述
可以使用字典，如上图，以key1进行分组，分为a，b两组，则a，b为键，剩下的为值。

②.按列分组：
在这里插入图片描述
按照列的类型进行分组，int型相加，object型合并。

③.根据字典分组：
在这里插入图片描述
创建二维数组，并将第二行的第二列和第三列设为NaN值，设置mapping映射，键为columns，最后案列分组，得到如图的结果。

④.多级索引分组：
在这里插入图片描述
创建df二维数组，列索引分为一级索引和二级索引，可以按一级索引进行分类，也可以按二级索引进行分类，但必须加上axis=1，按列操作。

三.数据聚合

①.内置函数：
在这里插入图片描述
创建二维数组，可以利用groupby进行分组后，利用内置函数，如sum（），mean（），describe（）等进行操作，还可以自定义函数，如图中的peak_range（）指输出最大值与最小值之差。分类后的每一列都可以进行不同的操作，比如第一列做mean，和peak_range，第二列做求和，就可以定义一个字典，如图中的d，最后利用agg函数进行操作。

②.聚合：
在这里插入图片描述
创建二维数组df，利用groupby以key1进行分组后求mean，最后将该表格加入到原先df的后面，有两种方法，第一种用merge过于复杂，即pd.merge(df,k1_mean,left_on=‘key1’,right_index=True)。第二种为利用transform，先进行分组求mean，k1_mean=df.groupby(‘key1’).transform(np.mean).add_prefix(‘mean’)，再合并df[k1_mean.columns]=k1_mean。

四.时间序列：

①.datetime：
在这里插入图片描述
②.时间序列：

可以是用datetime一个一个设定时间日期datetime（xxxx，xx，xx）。还可以使用date_range来设定。

③.时期（范围）：
在这里插入图片描述
④.时间重采样：
时间戳与时期相互转换

对日期进行重采样，例如原本是一分钟采样数据，最后改变为五分钟采样一次数据，聚合方式改为sum。

五.数据可视化

①.利用数组画折线图：
在这里插入图片描述
ts.plot()可以直接画出数组中的数据，plot（）可以设置参数，比图片大小，画图颜色，单独画出每一列的图形，或者自己选择横坐标纵坐标。

②.利用数组画柱状图，散布图，饼状图
在这里插入图片描述
1.df.plot.bar（），或者df.plot（kind=‘bar’）都是画出柱状图的命令。
2.df.plot.hist() 为画出直方图，参数可以有bins，意思为几个柱子，alpha设定参数，可将图片变透明。
3.df.plot.kde（）为画出该数组的概率密度
4.df.plot.scatter(x=‘A’,y=‘B’)是画出散布图，横坐标和纵坐标由自己设定。
5.s.plot.pie()是画出饼状图，参数labels可以修改标签，autopec是保留几个小数。

大牛李

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据科学包学习第三天

一.索引与多重索引：1.索引：①.一维数组：首先创建一维数组s，索引为abced。s.index为输出一维数组的索引，s.index.name="alpha"是为索引命名。②.二维数组:创建二维数组，列索引为one，two，three。df.index与df.columns分别为显示行索引与列索引。df.columns.name="col"与df.index.name="row"分别为列索引命名为col，行索引命名为row。最终数出新的df。③.重复索引：首先创建一维数组s，索引为
复制链接

扫一扫