贝叶斯估计、最大似然估计(MLE)、最大后验概率估计(MAP)这几个概念在机器学习和深度学习中经常碰到,读文章的时候还感觉挺明白,但独立思考时经常会傻傻分不清楚(😭),因此希望通过本文对其进行总结。
2. 背景知识
注:由于概率与数理统计需要了解的背景知识很多,因此这里只列出了部分内容,且写的较简略,许多概念的学习需要根据标题自己查找答案。
2.1 概率与统计
概率统计是很多人都学过的内容,但概率论与统计学的关系是什么?先看一下概率论与统计学在维基百科中的定义:
概率论是集中研究概率及随机现象的数学分支,是研究随机性或不确定性等现象的数学。
统计学是在数据分析的基础上,研究如何测定、收集、整理、归纳和分析反映数据数据,以便给出正确消息的科学。
下面的一段话引自LarrB Wasserman的《All of Statistics》,对概率和统计推断的研究内容进行了描述:
The basic problem that we studB in probabilitB is:
Given a data generating process, what are the properities of the outcomes?
The basic problem of statistical inference is the inverse of probabilitB:
Given the outcomes, what can we saB about the process that generated the data?
概率论是在给定条件(已知模型和参数)下,对要发生的事件(新输入数据)的预测。统计推断是在给定数据(训练数据)下,对数据生成方式(模型和参数)的归纳总结。概率论是统计学的数学基础,统计学是对概率论的应用。
2.2 描述统计和推断统计
统计学分为描述统计学和推断统计学。描述统计,是统计学中描绘或总结观察量基本情况的统计总称。推断统计指统计学中研究如何根据样本数据去推断总体数量特征的方法。
描述统计是对数据的一种概括。描述统计是罗列所有数据,然后选择一些特征量(例如均值、方差、中位数、四分中位数等)对总体数据进行描述。推断统计是一种对数据的推测。推断统计无法获取所有数据,只能得到部分数据,然后根据得到的数据推测总体数据的情况。
2.3 联合概率和边缘概率
假设有随机变量
和
,此时
用于表示
且
同时发生的概率。这类包含多个条件且所有条件同时成立的概率称为联合概率。请注意,联合概率并不是其中某个条件成立的概率,而是所有条件同时成立的概率。与之对应地,
或
这类仅与单个随机变量有关的概率称为边缘概率。
联合概率与边缘概率的关系如下:
2.4 条件概率
条件概率表示在条件
成立的情况下,
的概率,记作
,或者说条件概率是指事件
在另外一个事件
已经发生条件下的发生概率。为了简洁表示,后面省略a,b。
联合概率、边缘概率、条件概率的关系如下:
转换为乘法形式:
2.5 全概率公式
如果事件
构成一个完备事件组,即它们两两互不相容(互斥),其和为全集;并且
大于0,则对任意事件
有
上面的公式称为全概率公式。全概率公式是对复杂事件
的概率求解问题转化为了在不同情况下发生的简单事件的概率的求和问题。
2.6 贝叶斯公式
由条件概率的乘法形式可得:
上面的式子称为贝叶斯公式,也叫做贝叶斯定理或贝叶斯法则。在贝叶斯定理中,每个名词都有约定俗成的名称:
是已知
发生后
的条件概率,也由于得自
的取值而被称作
的后验概率,表示事件
发生后,事件