Python大数据分析（三）：大数据统计分析技术

最新推荐文章于 2024-04-17 09:42:09 发布

梦境工程师-335

最新推荐文章于 2024-04-17 09:42:09 发布

阅读量3.2k

点赞数 3

分类专栏：后端_Python 文章标签：大数据数据挖掘数据分析 python pandas

本文链接：https://blog.csdn.net/qq_41136216/article/details/106863207

版权

（一）概率论数理统计中的概念

在这里插入图片描述

随机变量（random variable） 表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关，都可以数量化，即都能用数量化的方式表达。

按照随机变量可能取得的值，可以把它们分为两种基本类型

在这里插入图片描述

统计分布(frequency distribution)亦称“次数(频数)分布(分配)” 。在统计分组的基础上，将总体中的所有单位按组归类整理，形成总体单位在各组间的分布。

分布在各组中的单位数叫做次数或频数。各组次数与总次数(全部总体单位数)之比，称为比率或频率。将各组别与次数依次编排而成的数列就叫做统计分布数列，简称分布数列或分配数列。

均值：平均数，统计学术语，是表示一组数据集中趋势的量数，是指在一组数据中所有数据之和再除以这组数据的个数。
方差：方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望（即均值）之间的偏离程度。统计中的方差（样本方差）是每个样本值与全体样本值的平均数之差的平方值的平均数。
标准差：标准差（Standard Deviation），是离均差平方的算术平均数的平方根，用σ表示。在概率统计中最常使用作为统计分布程度上的测量。标准差是方差的算术平方根。 标准差能反映一个数据集的离散程度。平均数相同的两组数据，

关注