Pandas(第十七集：DataFrame数学函数)

最新推荐文章于 2024-08-13 18:29:56 发布

Monly21

最新推荐文章于 2024-08-13 18:29:56 发布

阅读量72

点赞数

分类专栏： Pandas 文章标签： pandas python 机器学习

本文链接：https://blog.csdn.net/jhgfvjfggff_fds_f/article/details/130614635

版权

Pandas 专栏收录该内容

18 篇文章 5 订阅

订阅专栏

"""
聚合函数：
1.count() 非空值的数量
2.max()   最大值
3.min()   最小值
4.median()    中位数
5.sum()   求和
6.mean()  平均值
7.var()   方差【用于查看数据的分布情况，方差越大，越分散，波动越大，方差越小，越集中，波动越小】
8.std()   标准差 = 方差的算数平方根
其他函数：
9.cov()   协方差【相关性】
10.value_counts()  统计元素出现次数
11.df.corr()   所有属性相关性系数【相关性】
12.cumsum()    累加
13.cumprod()   累乘
"""
import numpy as np
import pandas as pd

print("========================= 源数据 ============================")
df = pd.DataFrame(data=np.random.randint(0, 100, size=(5, 3)))
print(df)

print("========================= 1.count() 非空值的数量 ============================")
print(df.count())  # 列
print("=====================================================")
print(df.count(axis=1))  # 行

print("========================= 2.max()   最大值 ============================")
print(df.max())  # 列
print("=====================================================")
print(df.max(axis=1))  # 行

print("========================= 3.min()   最小值 ============================")
print(df.min())  # 列
print("=====================================================")
print(df.min(axis=1))  # 行

print("========================= 4.median()    中位数 ============================")
print(df.median())  # 列

print("========================= 5.sum()   求和 ============================")
print(df.sum())  # 列
print("=====================================================")
print(df.sum(axis=1))  # 行

print("========================= 6.mean()  平均值 ============================")
print(df.mean())  # 列
print("=====================================================")
print(df.mean(axis=1))  # 行

print("========================= 7.var()   方差【用于查看数据的分布情况，方差越大，越分散，波动越大，方差越小，越集中，波动越小】 ============================")
print(df.var())  # 列
print("=====================================================")
print(df.var(axis=1))  # 行

print("========================= 8.std()   标准差 = 方差的算数平方根 ============================")
print(df.std())  # 列
print("=====================================================")
print(df.std(axis=1))  # 行

print("========================= 9.cov()   协方差【相关性】 ============================")
"""
两组数据中每对变量的偏差乘积的平均值
协方差>0：表示两组变量正相关
    如果两个变量的变化趋势一致，也就是说如果其中一个大于自身的期望值时，另一个也大于自身的期望值，那么两个变量之间的协方差就是正值
协方差<0：表示两组变量负相关
    如果两个变量的变化趋势相反，即其中一个变量大于自身的期望值时，另一个却小于自身的期望值，那么两个变量之间的协方差就是负值
协方差=0：表示两组变量不相关
"""
print(df.cov())  # 整个数据的协方差
print("=====================================================")
print(df[0].cov(df[1]))  # 第0列与第一列的协方差

print("========================= 10.value_counts()  统计元素出现次数 ============================")
print(df[0].value_counts())

print("========================= 11.df.corr()   所有属性相关性系数【相关性】 ============================")
"""
相关系数用r表示
相关系数 = X与Y的协方差 / (X的标准差 * Y的标准差)
相关系数值的范围在-1和+1之间
r>0为正相关，r<0为负相关，r=0表示不相关
r的绝对值越大，相关程度越高
"""
print(df.corr())  # 整个数据的相关性
print("=====================================================")
print(df.corrwith(df[0]))  # 某一列的相关性

print("========================= 12.cumsum()    累加 ============================")
print(df.cumsum())  # 列
print("=====================================================")
print(df.cumsum(axis=1))  # 行

print("========================= 13.cumprod()   累乘 ============================")
print(df.cumprod())  # 列
print("=====================================================")
print(df.cumprod(axis=1))  # 行