Pandas(第十七集:DataFrame数学函数)

"""
聚合函数:
1.count() 非空值的数量
2.max()   最大值
3.min()   最小值
4.median()    中位数
5.sum()   求和
6.mean()  平均值
7.var()   方差【用于查看数据的分布情况,方差越大,越分散,波动越大,方差越小,越集中,波动越小】
8.std()   标准差 = 方差的算数平方根
其他函数:
9.cov()   协方差【相关性】
10.value_counts()  统计元素出现次数
11.df.corr()   所有属性相关性系数【相关性】
12.cumsum()    累加
13.cumprod()   累乘
"""
import numpy as np
import pandas as pd

print("========================= 源数据 ============================")
df = pd.DataFrame(data=np.random.randint(0, 100, size=(5, 3)))
print(df)

print("========================= 1.count() 非空值的数量 ============================")
print(df.count())  # 列
print("=====================================================")
print(df.count(axis=1))  # 行

print("========================= 2.max()   最大值 ============================")
print(df.max())  # 列
print("=====================================================")
print(df.max(axis=1))  # 行

print("========================= 3.min()   最小值 ============================")
print(df.min())  # 列
print("=====================================================")
print(df.min(axis=1))  # 行

print("========================= 4.median()    中位数 ============================")
print(df.median())  # 列

print("========================= 5.sum()   求和 ============================")
print(df.sum())  # 列
print("=====================================================")
print(df.sum(axis=1))  # 行

print("========================= 6.mean()  平均值 ============================")
print(df.mean())  # 列
print("=====================================================")
print(df.mean(axis=1))  # 行

print("========================= 7.var()   方差【用于查看数据的分布情况,方差越大,越分散,波动越大,方差越小,越集中,波动越小】 ============================")
print(df.var())  # 列
print("=====================================================")
print(df.var(axis=1))  # 行

print("========================= 8.std()   标准差 = 方差的算数平方根 ============================")
print(df.std())  # 列
print("=====================================================")
print(df.std(axis=1))  # 行

print("========================= 9.cov()   协方差【相关性】 ============================")
"""
两组数据中每对变量的偏差乘积的平均值
协方差>0:表示两组变量正相关
    如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时,另一个也大于自身的期望值,那么两个变量之间的协方差就是正值
协方差<0:表示两组变量负相关
    如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时,另一个却小于自身的期望值,那么两个变量之间的协方差就是负值
协方差=0:表示两组变量不相关
"""
print(df.cov())  # 整个数据的协方差
print("=====================================================")
print(df[0].cov(df[1]))  # 第0列与第一列的协方差

print("========================= 10.value_counts()  统计元素出现次数 ============================")
print(df[0].value_counts())

print("========================= 11.df.corr()   所有属性相关性系数【相关性】 ============================")
"""
相关系数用r表示
相关系数 = X与Y的协方差 / (X的标准差 * Y的标准差)
相关系数值的范围在-1和+1之间
r>0为正相关,r<0为负相关,r=0表示不相关
r的绝对值越大,相关程度越高
"""
print(df.corr())  # 整个数据的相关性
print("=====================================================")
print(df.corrwith(df[0]))  # 某一列的相关性

print("========================= 12.cumsum()    累加 ============================")
print(df.cumsum())  # 列
print("=====================================================")
print(df.cumsum(axis=1))  # 行

print("========================= 13.cumprod()   累乘 ============================")
print(df.cumprod())  # 列
print("=====================================================")
print(df.cumprod(axis=1))  # 行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Monly21

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值