平均值是若干种可以用于描述样本的典型值或几种趋势的汇总统计量之一。
均值是为了描述集中趋势,而方差则是描述分散的情况。方差的平方根叫做标准差。
随机变量是可以随机地选取不通知的变量。
概率分布用来描述随机变量或一簇随机变量在每一个可能取到的状态的可能性大小。针对离散型的随机变量和连续性随机变量是不同的。
离散型变量的概率分布可以用概率质量函数(PMF)来描述。通常每一个随机变量都会有一个不同的概率质量函数。PMF将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。
概率质量函数可以同时作用于多个随机变量。这种多个变量的概率分布被称为联合概率分布。
当研究对象为连续性随机变量时,我们用概率密度函数(PDF)而不是PMF来描述他的概率分布。
两个随机变量的和的分布就等于两个概率密度的卷积。
我们知道了一组变量的联合概率分布,但想要了解其中的一个子集的概率分布。这种定义在子集上的概率分布被称为边缘概率分布。
针对某个事件,在给定其他事件发生时出现的概率。这种概率叫做条件概率。
条件概率的链式法则
两个随机变量x和y,如果它们的概率分布可以表示成两个因子的乘机形式,并且一个因子只包含x另一个因子只包含y,我们就称这两个随机变量是相互独立的。
如果关于x和y的条件概率分布对于z的每一个值都可以写成乘机的形式,那么这两个随机变量x和y在给点随机变量z时是条件独立的。
直方图非常直观地展现数据的特征
(1) 众数:分布中出现次数最多的值叫做众数
(2) 形状
(3) 异常值:远离众数的值叫做异常值
贝叶斯定理描述的是两个事件的条件概率之间的关系。
偏度是度量分布函数不对称程度的统计量。
皮尔逊中值偏度系数
参考文献
概率论与数理统计
概率论与数理统计-同济大学
深度学习
机器学习