来源:深度学习500问[]
Tips:
机器学习中的概率论
概率论和机器学习的关系
概率论是机器学习中理论设计的核心依据,其最终算法的设计一般都依赖于对数据的假设。
事件发生的概率是衡量该事件发生的可能性度量。
随机变量:表示各种随机现象(一定条件下,总是出现相同结果的现象)中出现的各种结果的实际函数值。
概率分布:用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法
离散型和连续行
随机变量分为离散型随机变量和连续型随机变量,其相应的描述其概率分布的函数是:
概率质量函数(Probability Mass Function,PMF):描述离散型随机变量的概率分布,通常用大写字母P表示。PMF将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。PMF可以同时作用于多个随机变量,即联合概率分布。P(x,y)表示是同时发生x,y的概率。
概率密度函数(Probability Density Function,PDF):描述连续型随机变量的概率分布,通常用小写字母p表示。函数p是x的PDF,则对函数p积分下来的总和就是1。
联合概率和边缘概率
联合概率:指的是类似于P(X=a,Y=b)这样,包含多个条件,且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于P(X=a),P(Y=b)这样,仅仅与单个随机变量有关的概率。
联系:联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。
条件概率的链式法则
条件概率公式如下:
P(A|B) = P(AB)/P(B) ==> P(A|B)*P(B) = P(AB)
推广之后:
P(ABC) = P(C|AB)P(B|A)P(A)
常见概率分布
伯努利分布(0-1分布)
伯努利分布是单个二值随机分布,单参数S属于[0,1]控制,S给出随机变量等于1的概率。主要性质有: