【机器学习基础】总论

本文深入探讨机器学习的基础——概率论,包括离散型随机变量概率、概率密度、期望和方差、贝叶斯定理以及高斯分布。此外,还介绍了决策论中的最小化错误分类率、期望损失、拒绝选项和回归问题的损失函数。通过这些基本概念,为后续的模型选择、维度灾难和信息论等内容奠定了理论基础。
摘要由CSDN通过智能技术生成

本系列为《模式识别与机器学习》的读书笔记。

一, 概率论

1,离散型随机变量概率

假设随机变量 X X X 可以取任意 的 x i x_i xi ,其中 i = 1 , …   . , M i = 1, \dots. , M i=1,.,M ,并且随机变量 Y Y Y 可以取任意的 y j y_j yj ,其中 j = 1 , … , L j = 1,\dots , L j=1,,L。考虑 N N N 次试验,其中我们对 X X X Y Y Y 都进⾏取样, 把 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj 的试验的数量记作 n i j n_{ij} nij ,并且,把 X X X 取值 x i x_i xi (与 Y Y Y 的取值⽆关)的试验的数量记作 c i c_i ci ,类似地,把 Y Y Y 取值 y j y_j yj 的试验的数量记作 r j r_j rj

X X X 取值 x i x_i xi Y Y Y 取值 y j y_j yj 的概率被记作 p ( X = x i , Y = y j ) p(X = x_i , Y = y_j ) p(X=xi,Y=yj), 被称为 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj联合概率joint probability)。它的计算⽅法为落在单元格 i , j i, j i,j 的点的数量与点的总数的⽐值,即:
p ( X = x i , Y = y i ) = n i j N (1.5) p\left(X=x_{i}, Y=y_{i}\right)=\frac{n_{i j}}{N}\tag{1.5} p(X=xi,Y=yi)=Nnij(1.5)
如图1.15所示,联合概率的计算方法。
联合概率计算
类似地, X X X 取值 x i x_i xi (与 Y Y Y 取值无关)的概率被记作 p ( X = x i ) p(X = x_i ) p(X=xi) ,也称为边缘概率marginal probability),计算⽅法为落在列 i i i上的点的数量与点的总数的⽐值,即:
p ( X = x i ) = c j N (1.6) p\left(X=x_{i}\right)=\frac{c_{j}}{N}\tag{1.6} p(X=xi)=Ncj(1.6)
由于图1.15中列 i i i 上的实例总数就是这列的所有单元格中实例的数量之和,即 c i = ∑ j n i j c_{i}=\sum_{j} n_{i j} ci=jnij,因此根据公式(1.5)和公式(1.6),我们可以得到概率的加和规则sun rule),即:
p ( X = x j ) = ∑ j = 1 L p ( X = x i , Y = y j ) (1.7) p\left(X=x_{j}\right)=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right)\tag{1.7} p(X=xj)=j=1Lp(X=xi,Y=yj)(1.7)
如果我们只考虑那些 X = x i X = x_i X=xi 的实例, 那么这些实例中 Y = y j Y = y_j Y=yj 的实例所占的⽐例被写成 p ( Y = y j ∣ X = x i ) p(Y = y_j | X = x_i) p(Y=yjX=xi),被称为给定 X = x i X = x_i X=xi Y = y j Y = y_j Y=yj条件概率conditional probability),其计算⽅式为:计算落在单元格 i , j i, j i,j 的点的数量列 i i i 的点的数量的⽐值,即:
p ( Y = y j ∣ X = x i ) = n i j c i (1.8) p\left(Y=y_{j} | X=x_{i}\right)=\frac{n_{i j}}{c_{i}}\tag{1.8} p(Y=yjX=xi)=cinij(1.8)
从公式(1.5)、公式(1.6)、公式(1.8)可以推导出概率的乘积规则product rule),即:
p ( X = x i , Y = y j ) = n i j N = n i j c i ⋅ c i N = p ( Y = y j ∣ X = x i ) p ( X = x i ) (1.9) p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N}=\frac{n_{i j}}{c_{i}} \cdot \frac{c_{i}}{N}=p\left(Y=y_{j} | X=x_{i}\right) p\left(X=x_{i}\right) \tag{1.9} p(X=xi,Y=yj)=Nnij=cinijNci=p(Y=yjX=xi)p(X=xi)(1.9)

根据乘积规则,以及对称性 p ( X , Y ) = p ( Y , X ) p(X, Y ) = p(Y, X) p(X,Y)=p(Y,X),我们⽴即得到了下⾯的两个条件概率之间的关系,称为贝叶斯定理Bayes' theorem)即:
p ( Y ∣ X ) = p ( X ∣ Y ) p ( Y ) p ( X ) (1.10) p(Y | X)=\frac{p(X | Y) p(Y)}{p(X)}\tag{1.10} p(YX)=p(X)p(XY)p(Y)(1.10)

贝叶斯定理Bayes' theorem),在模式识别和机器学习领域扮演者中⼼⾓⾊。使⽤加和规则,贝叶斯定理中的分母可以⽤出现在分⼦中的项表⽰,这样就可以把分母看作归一常数,即:
p ( X ) = ∑ Y p ( X ∣ Y ) p ( Y ) (1.11) p(X)=\sum_{Y} p(X|Y) p(Y)\tag{1.11} p(X)=Yp(XY)p(Y)(1.11)

如果两个变量的联合分布可以分解成两个边缘分布的乘积,即 p ( X , Y ) = p ( X ) p ( Y ) p(X, Y) = p(X)p(Y) p(X,Y)=p(X)p(Y), 那么我们说 X X X Y Y Y 相互独⽴independent)。

2,概率密度

如果⼀个实值变量x的概率 落在区间 ( x , x + δ x ) (x, x + \delta x) (x,x+δx) 的概率由 p ( x ) δ x p(x)\delta x p(x)δx 给出( δ x → 0 \delta x \to 0 δx0), 那么 p ( x ) p(x) p(x) 叫做 x x x概率密度probability density)。 x x x 位于区间 ( a , b ) (a, b) (a,b) 的概率:

p ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x (1.12) p(x \in(a, b))=\int_{a}^{b} p(x) \mathrm{d}x\tag{1.12} p(x(a,b))=abp(x)dx(1.12)
如图1.16,概率密度函数。
离散型变量的概率与概率密度函数
由于概率是⾮负的,并且 x x x 的值⼀定位于实数轴上得某个位置,因此概率密度⼀定满⾜下⾯两个条件

1) p ( x ) ≥ 0 p(x) \geq 0 p(x)0

  1. ∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty} p(x) \mathrm{d} x=1 p(x)dx=1

在变量以⾮线性的形式变化的情况下,概率密度函数通过Jacobian因⼦变换为与简单的函数不同的形式。

例如,假设我们考虑⼀个变量的变化 x = g ( y ) x = g(y) x=g(y), 那么函数 f ( x ) f(x) f(x) 就变成 了 f ~ ( y ) = f ( g ( y ) ) \tilde{f}(y)=f(g(y)) f~(y)=f(g(y))。现在让我们考虑⼀个概率密度函数 p x ( x ) p_x (x) px(x),它对应于⼀个关于新变量 y y y 的密度函数 p y ( y ) p_y (y) py(y),对于很⼩的 δ x \delta x δx 的值,落在区间 ( x , x + δ x ) (x, x + \delta x) (x,x+δx) 内的观测会被变换到区间 ( y , y + δ y ) (y, y + \delta y) (y,y+δy) 中。其中 p x ( x ) δ x ≃ p y ( y ) δ y p_{x}(x) \delta x \simeq p_{y}(y) \delta y px(x)δxpy(y)δy ,因此有:
p y ( y ) = p x ( x ) ∣ d x d y ∣ = p x ( g ( y ) ) ∣ g ′ ( y ) ∣ (1.13) p_{y}(y)=p_{x}(x)\left|\frac{\mathrm{d} x}{\mathrm{d} y}\right|=p_{x}(g(y))\left|g^{\prime}(y)\right|\tag{1.13} py(y)=px(x)dydx=px(g(y))g(y)(1.13)
位于区间 ( − ∞ , z ) (−\infty, z) (,z) x x x 的概率由累积分布函数cumulative distribution function)给出。 定义为:
P ( z ) = ∫ − ∞ z p ( x ) d x (1.14) P(z)=\int_{-\infty}^{z} p(x) \mathrm{d} x\tag{1.14} P(z)=zp(x)dx(1.14)
如果我们有⼏个连续变量 x 1 , … , x D x_1 ,\dots , x_D x1,,xD , 整体记作向量 x \boldsymbol{x} x, 那么我们可以定义联合概率密度 p ( x ) = p ( x 1 , … , x D ) p(\boldsymbol{x}) = p(x_1 ,\dots , x_D ) p(x)=p(x1,,xD),使得 x \boldsymbol{x} x 落在包含点 x \boldsymbol{x} x 的⽆穷⼩体积 δ x \delta \boldsymbol{x} δx 的概率由 p ( x ) δ x p(\boldsymbol{x})\delta \boldsymbol{x} p(x)δx 给出。多变量概率密度必须满⾜以下条件

1) p ( x ) ≥ 0 p(\boldsymbol{x}) \geq 0 p(x)0

  1. ∫ p ( x ) d x = 1 \int p(\boldsymbol{x}) \mathrm{d} \boldsymbol{x}=1 p(x)dx=1

其中,积分必须在整个 x \boldsymbol{x} x 空间上进⾏。

3,期望和方差

在概率分布 p ( x ) p(x) p(x) 下,函数 f ( x ) f(x) f(x) 的平均值被称为 f ( x ) f(x) f(x)期望expectation),记作 E [ f ] \mathbb{E}[f] E[f]。对于⼀个离散变量,它的定义为:
E [ f ] = ∑ x p ( x ) f ( x ) (1.15) \mathbb{E}[f]=\sum_{x} p(x) f(x)\tag{1.15} E[f]=xp(x)f(x)(1.15)
在连续变量的情形下,期望以对应的概率密度的积分的形式表⽰为:
E [ f ] = ∫ p ( x ) f (

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值