描述统计学(descriptive statistics)是一门统计学领域的学科,主要研究如何取得反映客观现象的数据,并以图表形式对所搜集的数据进行处理和显示,最终对数据的规律、特征做出综合性的描述分析
常用的统计学函数:count() 统计某个非空值的数量
sum() 求和
mean() 求均值
median() 求中位数
mode() 求众数
std() 求标准差
min() 求最小值
max() 求最大值
abs() 求绝对值
prod() 求所有数值的乘积
cumsum() 计算累计和,axis=0,按照行累加;axis=1,按照列累加
cumprod() 计算累计积,axis=0,按照行累积;axis=1,按照列累积
corr() 计算数列或变量之间的相关系数,取值-1到1,值越大表示关联性越强
从描述统计学角度出发,可以对 DataFrame 结构执行聚合计算等其他操作,比如 sum() 求和、mean()求均值等方法
在 DataFrame 中,使用聚合类方法时需要指定轴(axis)参数两种传参方式:
对行操作,默认使用 axis=0 或者使用 "index"
对列操作,默认使用 axis=1 或者使用 "columns"
axis=0 表示按垂直方向进行计算,而 axis=1 则表示按水平方向
创建一个 DataFrame 结构:
sum()求和:
在默认情况下,返回 axis=0 的所有值的和
mean()求均值:
std()求标准差:
标准差是方差的算术平方根,它能反映一个数据集的离散程度。但是要注意,平均数相同的两组数据,标准差未必相同
数据汇总描述
describe() 函数显示与 DataFrame 数据列相关的统计信息
describe() 函数输出了平均值、std 和 IQR 值(四分位距)等一系列统计信息。通过 describe() 提供的include能够筛选字符列或者数字列的摘要信息
include 相关参数值说明:
object: 表示对字符列进行统计信息描述
number:表示对数字列进行统计信息描述
all:汇总所有列的统计信息