机器学习是多个领域的交叉学,涉及到的数学有很多,基本的有:概率论、线性代数、数值计算等。本文中的部分公式和解释,引用了许多其他博主的描述。 如若侵权,即刻删除。
一、概率
1.1 概率的使用
计算机科学的许多分支处理的对象都是不确定或随机量 的 实体。我们生活在一个充满混沌和不确定的世界里,很多事情没办法精确的测量。面对的是随机误差和不确定性的干扰。在机器学习中概率的一个作用就是利用模型推断数据,当给定一个模型,我们给到一个输入,输出可能是一个特征,一些特征的组合,形成一个向量。不确定性几乎无处不在,我们需要了解它的习性,掌握并利用它,这就是我们需要概率理论和统计的原因。
1.2 随机变量
随机变量(random variable)表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,都能数量化的方式表达。随机变量可以是连续的,也可以是随机的。随机变量可以随机地取不同值的变量。我们通常用小写字母来表示随机变量本身,而用带数字下标的小写字母来表示随机变量能够取到的值。例如, 和 都是随机变量X可能的取值。
离散型(discrete)随机变量即在一定区间内变量取值为有限个或可数个。例如某地区某年人口的出生数、死亡数,某药治疗某病病人的有效数、无效数等。离散型随机变量通常依据概率质量函数分类,主要分为:伯努利随机变量、二项随机变量、几何随机变量和泊松随机变量。
连续型(continuous)随机变量即在一定区间内变量取值有无限个,或数值无法一一列举出来。例如某地区男性健康成人的身长值、体重值,一批传染性肝炎患者的血清转氨酶测定值等。有几个重要的连续随机变量常常出现在概率论中,如:均匀随机变量、指数随机变量、伽马随机变量和正态随机变量。
1.3 随机分布
概率分布,是指用于表述随机变量取值的概率规律。事件的概率表示了一次试验中某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即随机试验的概率分布。如果试验结果用变量X的取值来表示,则随机试验的概率分布就是随机变量的概率分布,即随机变量的可能取值及取得对应值的概率。根据随机变量所属类型的不同,概率分布取不同的表现形式。 简单来讲给定某随机变量的取值范围,概率分布就是导致该随机事件出现的可能性。从机器学习的角度来看,概率分布就是飞鹤随机变量取值范围的某个对象属于某个类别或服从某种趋势的可能性。(引用别人的)
1.4 条件概率
条件概率是指事件A在事件B 发生的条件下 发生的概率。条件概率表示为:P(A|B),读作“A在B发生的条件下发生的概率”。若只有两个事件A,B,那么,
。
1.5 边缘概率
是某个事件发生的概率,而与其它事件无关。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为 边缘化(marginalization)。A的边缘概率表示为P(A),B的边缘概率表示为P(B)。
1.6 贝叶斯法则
全概率公式: 由因求果 贝叶斯公式:由果求因
先看看什么是“先验概率”和“后验概率”,以一个例子来说明:
假设某种病在人群中的发病率是0.001,即1000人中大概会有1个人得病,则有: P(患病) = 0.1%;即:在没有做检验之前,我们预计的患病率为P(患病)=0.1%,这个就叫作"先验概率"。
再假设现在有一种该病的检测方法,其检测的准确率为95%;即:如果真的得了这种病,该检测法有95%的概率会检测出阳性,但也有5%的概率检测出阴性;或者反过来说,但如果没有得病,采用该方法有95%的概率检测出阴性,但也有5%的概率检测为阳性。用概率条件概率表示即为:P(显示阳性|患病)=95%
现在我们想知道的是:在做完检测显示为阳性后,某人的患病率P(患病|显示阳性),这个其实就称为"后验概率"。
而这个叫贝叶斯的人其实就是为我们提供了一种可以利用先验概率计算后验概率的方法,我们将其称为“贝叶斯公式”。
这里先了解条件概率公式:
由条件概率可以得到乘法公式:
将条件概率公式和乘法公式结合可以得到:
再由全概率公式:
代入可以得到贝叶斯公式:
在这个例子里就是:
贝叶斯公式贯穿了机器学习中随机问题分析的全过程。从文本分类到概率图模型,其基本分类都是贝叶斯公式。
期望、方差、协方差等主要反映数据的统计特征,机器学习的一个很大应用就是数据挖掘等,因此这些基本的统计概念也是很有必要掌握。另外,像后面的EM算法中,就需要用到期望的相关概念和性质。
1.7 数学期望
在概率论和统计学种,数学期望(mean)(简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
离散型随机变量的一切可能的取值 与对应的概率 乘积之和称为该离散型随机变量的数学期望 [2] (若该求和绝对收敛),记为 。它是简单算术平均的一种推广,类似加权平均。
离散型随机变量X的取值为 ,为X对应取值的概率,可理解为数据出现的频率 ,则:
连续性随机变量X的概率密度函数为f(x),若积分绝对收敛,则称积分的值 为随机变量的数学期望,记为E(X)。
1.8 方差(variance)
概率中,方差用来衡量随机变量与其数学期望之间的偏离程度;统计中的方差为样本方差,是各个样本数据分别与其平均数之差的平方和的平均数。数学表达式如下:
1.9 协方差(covariance)
在概率论和统计学中,协方差被用于衡量两个随机变量X和Y之间的总体误差。数学定义式为:
1.10 常见分布函数
1.10.1 0-1分布
0-1分布是单个二值型离散随机变量的分布,其概率分布函数为:
1.10.2 几何分布
几何分布是离散型概率分布,其定义为:在n次伯努利试验中,试验k次才得到第一次成功的机率。即:前k-1次皆失败,第k次成功的概率。其概率分布函数为:
性质:
1.10.3 二项分布
二项分布即重复n次伯努利试验,各次试验之间都相互独立,并且每次试验中只有两种可能的结果,而且这两种结果发生与否相互对立。如果每次试验时,事件发生的概率为p,不发生的概率为1-p,则n次重复独立试验中发生k次的概率为:
性质:
1.10.4 正态分布
若随机变量X服从一个数学期望为,方差为的正态分布,则我们将其记为:。其期望值决定了正态分布的位置,其标准差(方差的开方)决定了正态分布的幅度。
(详细了解,参考:https://www.cnblogs.com/bingjianing/p/9117330.html
https://www.jianshu.com/p/04cc140e1127 )
1.10.5 泊松分布与指数分布
泊松分布是单位时间内独立事件发生次数的概率分布,指数分布是独立事件的时间间隔的概率分布
(详细了解,参考:http://www.ruanyifeng.com/blog/2015/06/poisson-distribution.html)
1.10.6 拉格朗日乘子法
基本的拉格朗日乘子法就是求函数f(x1,x2,...)在约束条件g(x1,x2,...)=0下的极值的方法。
其主要思想是将约束条件函数与原函数联立,从而求出使原函数取得极值的各个变量的解
(详细了解,参考:https://www.cnblogs.com/wangxiu/p/5653040.html)
计算过程:
1.假设需要求极值的目标函数(objective function)为f(x,y),限制条件为φ(x,y)=M
2.设
3.定义一个新函
4.用偏导数方法列出:
5.求出x,y,λ的值,代入即可得到目标函数的极值
1.10.7 最大似然估计
最大似然也称为最大概似估计,即:在“模型已定,参数θ未知”的情况下,通过观测数据估计未知参数θ 的一种思想或方法。其基本思想是: 给定样本取值后,该样本最有可能来自参数为何值的总体。即:寻找使得观测到样本数据的可能性最大。
求极大似然函数估计值的一般步骤:
- 1、写出似然函数;
- 2、对似然函数取对数;
- 3、两边同时求导数;
- 4、令导数为0解出似然方程。