【概率与统计】交互式概率与统计在线学习网站

交互式图表将线性代数抽象与实际完美结合的魅力展现地淋漓尽致。
今天继续向大家推荐一个概率与统计的在线交互式学习网站,概率论原本枯燥无味,统计学难以把握全貌,可这套交互式课程打破了固有印象,将抽象模型娓娓道来,将实验模拟逼近真实。

在线网址:
https://seeing-theory.brown.edu/index.html
关注微信公众号:人工智能大讲堂,后台回复【ps】获取配套pdf资源

一共六个章节,每个章节都有交互式图表对重要概念进行可视化讲解。
图片

第一章 基础概率论
这一章是对概率论基本概念的介绍。

随机事件
很多概率与统计的书都会拿抛硬币的例子来引出概率和随机变量的概念。
是啊,我们确实生活在一个充满不确定性的世界,需要用概率去表示一件事发生的概率。

你是否有过用抛硬币方式来决定一件事情?

是否连续几次出现正面或者反面后开始对数学产生怀疑?

那么,不妨试一下这个实验。

在这里插入图片描述

大数定理告诉我们真理不易显现,只有多次独立重复实验,实验频率才会接近真实概率,同时,只有使用绝对公平的硬币才不会产生有偏估计。

期望
期望是对随机变量的取值进行加权平均,其中权重是每个取值出现的概率。
此时,要注意期望与平均值的区别,平均值通常是对一组数值的简单算术平均,即各个数值权重相等。

在这里插入图片描述

方差
方差用于衡量随机变量偏离均值的离散程度。
在这里插入图片描述

第二章 复合概率
本章讨论了概率论中更多的核心概念。

集合
广义上讲集合是指对象的集合,在概率论背景下,使用集合符号指定复合事件,即事件的交,并,补。
在这里插入图片描述

采样
采样涉及两个重要概念,排列和组合,排列和组合的概念在概率论中用于计算事件发生的概率,以及确定样本空间中可能的结果数量。
排列

组合

条件概率
条件概率P(A|B)是指事件B发生的前提下事件A发生的概率,如果事件A和B相互独立,则P(A|B)=P(A)。
同理,联合P(A,B)则是指A和B同时发生的概率,如果A和B相互独立,P(A,B)=P(A)*P(B)。

在这里插入图片描述

第三章 概率分布
概率分布指定了所有可能结果的相对可能性。

随机变量

严格来说,随机变量是一个函数,它将概率空间中的每个结果映射到一个实数。

在这里插入图片描述

右侧六边形网格代表均匀概率空间,选择区域并定义随机变量,然后从概率空间中进行抽样,生成随机变量的经验分布。

这里的经验分布是指从样本数据中得出的概率分布。它是通过对样本数据进行统计分析来估计真实概率分布的一种方法。

概率分布
随机变量分为离散随机变量和连续随机变量,概率分布同样也分为连续概率分布以及离散概率分布。
下面这个交互式图表展示不同的概率分布。

在这里插入图片描述

连续概率分布

在这里插入图片描述

离散概率分布

中心极限定理
中心极限定理的一般定义如下:假设有一组独立同分布的随机变量X1, X2, …, Xn,它们具有相同的概率分布和参数。记这些随机变量的均值为X̄,标准差为σ。当样本容量n趋向于无穷大时,随机变量X̄的分布会逐渐接近于正态分布,即:
X̄ ~ N(μ, σ^2/n)

其中,μ是总体的均值,σ^2是总体的方差。

中心极限定理的应用广泛,它在统计学和实际应用中具有重要意义:

抽样分布近似:中心极限定理提供了一个重要的理论基础,使得我们在不知道总体分布情况下,可以使用正态分布来近似描述样本均值的分布情况。这样可以进行抽样分布的推断和假设检验,例如构建置信区间和进行假设检验。

统计推断:中心极限定理使得在大样本情况下,我们可以使用正态分布的性质来进行统计推断。例如,可以使用正态分布来进行参数估计、假设检验和方差分析等。

数据分析:中心极限定理在数据分析中也具有重要作用。当我们面对大量独立随机变量相加或平均的情况时,可以使用中心极限定理来近似描述总体的分布情况,从而进行数据分析和预测。

在这里插入图片描述

第四章 频率学派推断
频率派推断是通过观察数据来确定潜在分布的性质的过程。

点估计
点估计是统计学中用来估计未知参数的方法,它通过从样本数据中计算一个单一的数值,作为未知参数的估计值。
常见的点估计方法包括最大似然估计(Maximum Likelihood Estimation,MLE)、矩估计(Method of Moments Estimation)、最小二乘估计(Least Squares Estimation)等。

与点估计相对应的是区间估计,区间估计给出了未知参数的一个范围。

与频率派相对应的则是贝叶斯学派,其对未知参数的估计方法称为贝叶斯估计,是一种基于贝叶斯定理的参数估计方法。它将参数视为随机变量,输出则是未知参数的概率分布。

下图是使用该思想来估计Π的值。

图片

图片

在圆和正方形内随机采样点,m和n分别是落在圆和正方形内点的个数。

在这里插入图片描述

置信区间
与点估计相反,置信区间通过指定一系列可能的值来估计参数。这样的区间与置信水平相关,置信水平是生成区间的过程产生包含真实参数的区间的概率。
先选择一个概率分布进行抽样,然后设置抽样大小和置信水平。

在这里插入图片描述

Bootstrap

Bootstrap通过重采样来估计统计量的性质,基本思想是通过从原始样本中有放回地抽取大量的重复样本,构建一个类似于原始样本的虚拟总体。然后,使用这些重复样本来进行计算和推断,以估计统计量的性质,如均值、方差、置信区间等。

不知道你是否还记得机器学习中Bagging 集成学习算法,它就是采用Bootstrap来构造弱学习器的样本。

在这里插入图片描述

第五章 贝叶斯学派推断
贝叶斯推断通过观察到数据后更新自己的信念。
贝叶斯学派推断的核心思想是将参数视为随机变量,并利用先验分布来描述对参数的先有知识或主观信念。当观察到新的数据时,贝叶斯推断通过结合先验分布和观测数据,应用贝叶斯定理来得到参数的后验分布。后验分布反映了在观测数据的基础上对参数的更新和调整。

贝叶斯定理

假设在你最近决定去医院接受一项罕见疾病的测试。如果你不幸收到了一个阳性结果,那么你不禁会问:“在测试结果为阳性的情况下,我真正患有这种疾病的概率是多少?贝叶斯定理告诉我们如何准确计算这个概率。

图片

正如方程所示,测试结果为阳性时患病的后验概率取决于患病的先验概率P(Disease)。可以将其视为整个人群中的疾病发生率。通过拖动下方的条形图来设置这个概率。

图片

后验概率还取决于测试的准确性:对于健康患者,测试正确报告阴性结果的频率是多少?对于患有疾病的人,测试报告阳性结果的频率是多少?通过拖动下方的条形图来设置这个概率。

图片

在这里插入图片描述

似然函数
在统计学中,似然函数具有非常明确的定义:
图片

似然(likelihood)的概念在贝叶斯统计和频率主义统计中都起着基础性的作用。

在这里插入图片描述

如上图所示,先选择一个概率分布,选择抽样大小,然后进行抽样,然后拖动滚动条查看采样点的似然性。

先验概率到后验概率
贝叶斯统计的核心思想是,随着获取新数据,先前的信念应该得到更新。
下图所示,一个可能有偏硬币,正面朝上概率默认0.5,且可手动调节,通过α,β定义先验分布,在抛掷硬币过程中来更新后验概率。

在这里插入图片描述

第六章 回归分析
线性回归是一种建模两个变量线性关系的方法。

最小二乘法

普通最小二乘(OLS)回归方法允许我们估计线性模型的参数。该方法的目标是确定最小化数据集中观测值与模型预测值之间的平方误差和的线性模型。

在这里插入图片描述

上图演示改变数据点对模型的影响。

相关性

相关性是衡量两个变量之间线性关系的一种度量,取值范围在+1到-1之间。

图片

下图演示了同一种鸢尾花不同属性的相关性,以及不同种花不同属性之间的相关性。

在这里插入图片描述

方差分析

方差分析是检验两个或多个样本均值是否相等的重要统计方法。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值