"""
聚合函数:
1.count() 非空值的数量
2.max() 最大值
3.min() 最小值
4.median() 中位数
5.sum() 求和
6.mean() 平均值
7.var() 方差【用于查看数据的分布情况,方差越大,越分散,波动越大,方差越小,越集中,波动越小】
8.std() 标准差 = 方差的算数平方根
其他函数:
9.cov() 协方差【相关性】
10.value_counts() 统计元素出现次数
11.df.corr() 所有属性相关性系数【相关性】
12.cumsum() 累加
13.cumprod() 累乘
"""
import numpy as np
import pandas as pd
print("========================= 源数据 ============================")
df = pd.DataFrame(data=np.random.randint(0, 100, size=(5, 3)))
print(df)
print("========================= 1.count() 非空值的数量 ============================")
print(df.count()) # 列
print("=====================================================")
print(df.count(axis=1)) # 行
print("========================= 2.max() 最大值 ============================")
print(df.max()) # 列
print("=====================================================")
print(df.max(axis=1)) # 行
print("========================= 3.min() 最小值 ============================")
print(df.min()) # 列
print("=====================================================")
print(df.min(axis=1)) # 行
print("========================= 4.median() 中位数 ============================")
print(df.median()) # 列
print("========================= 5.sum() 求和 ============================")
print(df.sum()) # 列
print("=====================================================")
print(df.sum(axis=1)) # 行
print("========================= 6.mean() 平均值 ============================")
print(df.mean()) # 列
print("=====================================================")
print(df.mean(axis=1)) # 行
print("========================= 7.var() 方差【用于查看数据的分布情况,方差越大,越分散,波动越大,方差越小,越集中,波动越小】 ============================")
print(df.var()) # 列
print("=====================================================")
print(df.var(axis=1)) # 行
print("========================= 8.std() 标准差 = 方差的算数平方根 ============================")
print(df.std()) # 列
print("=====================================================")
print(df.std(axis=1)) # 行
print("========================= 9.cov() 协方差【相关性】 ============================")
"""
两组数据中每对变量的偏差乘积的平均值
协方差>0:表示两组变量正相关
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时,另一个也大于自身的期望值,那么两个变量之间的协方差就是正值
协方差<0:表示两组变量负相关
如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时,另一个却小于自身的期望值,那么两个变量之间的协方差就是负值
协方差=0:表示两组变量不相关
"""
print(df.cov()) # 整个数据的协方差
print("=====================================================")
print(df[0].cov(df[1])) # 第0列与第一列的协方差
print("========================= 10.value_counts() 统计元素出现次数 ============================")
print(df[0].value_counts())
print("========================= 11.df.corr() 所有属性相关性系数【相关性】 ============================")
"""
相关系数用r表示
相关系数 = X与Y的协方差 / (X的标准差 * Y的标准差)
相关系数值的范围在-1和+1之间
r>0为正相关,r<0为负相关,r=0表示不相关
r的绝对值越大,相关程度越高
"""
print(df.corr()) # 整个数据的相关性
print("=====================================================")
print(df.corrwith(df[0])) # 某一列的相关性
print("========================= 12.cumsum() 累加 ============================")
print(df.cumsum()) # 列
print("=====================================================")
print(df.cumsum(axis=1)) # 行
print("========================= 13.cumprod() 累乘 ============================")
print(df.cumprod()) # 列
print("=====================================================")
print(df.cumprod(axis=1)) # 行
Pandas(第十七集:DataFrame数学函数)
最新推荐文章于 2024-08-13 18:29:56 发布