数据分析 | 基础复习 | pandas+matplotlib

最新推荐文章于 2024-03-19 22:05:40 发布

无名之辈W

最新推荐文章于 2024-03-19 22:05:40 发布

阅读量671

点赞数

分类专栏：数据分析与挖掘

本文链接：https://blog.csdn.net/weixin_43136158/article/details/106498064

版权

数据分析与挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

pandas中的describe()函数

python pandas中，对于一维数组，describe会返回一系列参数，count，mean，std，min，25%，50%，75%，max。

describe()返回值的解释如下：
1、count：返回数组的个数，如上述为4个元素，所以返回为4；
2、mean：返回数组的平均值，1 3 5 9的平均值为4.5；
3、std：返回数组的标准差；
4、min：返回数组的最小值；
5、25%，50%，75%：返回数组的三个不同百分位置的数值，也就是统计学中的四分位数，其中50%对应的是中位数。
6、max：返回列表的最大值。

describe的参数：

describe()函数有三个参数可以指定，分别是percentiles, include, exclude，三者的含义如下：

1、percentiles： 默认是返回四分位数，即25%，50%和75%，可以修改：describe(percentiles=[.75, 0.8])，则返回的是50%，75%，80%位置的数，可以根据需要进行相应的处理。

2、include： 默认只计算数值型特征的统计量：
当参数为include=’all’ 时，显示所有类型的数据；
当参数为numpy.number时，返回的是数值类型的数据；
当参数为numpy.object，返回的是object类型的数据；
当include=[‘category’] 时，返回的是category；
当include=[‘O’] 时，返回统计的是字符串型的数据。

3、exclude： include可以指定返回类型，而exclude则可以指定不返回某种类型，即返回除指定类型之外的数据。

注意：

Anaconda 3.7版本中 ‘sheetname’ 命令,已更新为 ‘sheet_name’ 。

对缺失值的处理

相关函数和属性

判断数据是否有缺失值：isnull()
获得每一列的判断结果：any()
计算变量的缺失值个数：sum()
计算数据集的行数和列数：shape，返回值：(行数, 列数)
删除字段或数据行：drop()
缺失值填充：fillna()

df.dropna(axis=0, how='any', inplace=True)

统计空值的个数：

power_isnull = power_data.isnull().value_counts()

pandas中的to_datetime()方法

作用：
将给定的数据按照指定格式转换成日期格式
参数：
在这里插入图片描述

将DataFrame中的object类型数据全部转换为float64类型数据：

df = df.convert_objects(convert_numeric=True)#df是一个DataFrame

但convert_objects 已被弃用 - 如果你使用它，你会得到像这样的警告：

FutureWarning: convert_objects is deprecated. Use the data-type
specific converters pd.to_datetime, pd.to_timedelta and
pd.to_numeric.

因此可以：

df = df.apply(pd.to_numeric, axis=0)

matplotlib保存生成的图片

import matplotlib.pyplot as plt
'''一些画图代码'''
plt.savefig("filename.png")
plt.show()

matplotlib画图时调整子图的间距

plt.subplots_adjust(left=None, bottom=None, right=None, top=None,wspace=None, hspace=None)
参数说明：
top、bottom、left、right：整个图距离上下左右边框的距离
wspace、hspace：这个才是调整各个子图之间的间距
wspace：调整子图之间的横向间距
hspace：调整子图之间纵向间距

DataFrame找行标签与列标签、将某列设置为行标签

DataFrame.columns：列标签
DataFrame.index：行标签
power_pure_data.set_index([“日期”], inplace=True)：将日期列设置为行标签

pandas常用函数之diff：求某列或某行数据的差分

函数原型：

DataFrame.diff(periods=1, axis=0)

参数：
periods：移动的幅度，int类型，默认值为1。
axis：移动的方向，{0 or ‘index’, 1 or ‘columns’}，如果为0或者’index’，则上下移动，如果为1或者’columns’，则左右移动。

返回值
diffed：DataFrame类型

其实是经过了两个步骤：
1 首先会执行：

df.shift()#移除第一项，返回移除项

2 然后再将该数据与原数据做差，即：

df-df.shift()

例如：
序列0 1 2 3在执行diff()之后为NAN 1 2 3
序列0 1 2 3在执行diff(2)之后为NAN NAN 2 2 即：移除前两项之后再将之后两项与前两项做差
序列0 1 2 3在执行diff(-1)之后为-1 -1 -1 NAN 即：移除倒数第一项之后再倒着分别与该数之后的项做差

push()、pop()、shift()、unshift()方法简单整理

这四个都很常用返回值不一样，注意区别：
push() 在数组的末尾添加一个或多个元素返回数组新长度

pop() 移除数组的最后一项，返回移除的项

shift() 移除数组的第一项，返回移除项

unshift() 在数组的第一项前面添加一个或多个元素，返回数组的长度

无名之辈W

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据分析 | 基础复习 | pandas+matplotlib

pandas中的describe()函数python pandas中，对于一维数组，describe会返回一系列参数，count，mean，std，min，25%，50%，75%，max。describe()返回值的解释如下：1、count：返回数组的个数，如上述为4个元素，所以返回为4；2、mean：返回数组的平均值，1 3 5 9的平均值为4.5；3、std：返回数组的标准差；4、min：返回数组的最小值；5、25%，50%，75%：返回数组的三个不同百分位置的数值，也就是统计学中的四分位
复制链接

扫一扫