【Book】Pattern Recognition and Machine Learning - 1 Introduction

最新推荐文章于 2022-05-14 00:46:26 发布

今天也要加油鸭~

最新推荐文章于 2022-05-14 00:46:26 发布

阅读量317

点赞数

本文链接：https://blog.csdn.net/Marguerite_/article/details/83790688

版权

Machine Learning 同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

2018年的工作

1 篇文章 0 订阅

订阅专栏

Book Reading

1 篇文章 0 订阅

订阅专栏

1 Introduction

模式识别领域关注的是利用计算机算法自动发现数据规律，并利用这些规律采取一定的行动，例如分类。
泛化(Generalization)：正确分类与训练集不同的新样本的能力。
特征抽取(feature extraction)：训练前的数据预处理，将输入变量变换到新的变量空间。
样本数量应为参数数量的几倍(5 or 10)，数据集越大模型会越复杂越灵活，同时数据集的增大能缓解过拟合的问题。
通常使用正则化(regularization)来避免过拟合，正则化计算时又通常将系数 $\omega_0$ 省去。正则化技术由于减小了系数，所以又通常被称为收缩(shrinkage)方法，特殊情况：山脊回归/权值衰减。

1.2 概率论

概率论为PR领域的不确定性的量化提供了合理一致的框架，是PR的核心。

（1）贝叶斯定理：

$\frac{p(X, Y)}{p(X)} = \frac{p(X|Y)p(Y)}{p(X)}$ $\sum_Yp(X|Y)p(Y) = \int p(X|Y)p(Y)dY$
若X和Y相互独立，则满足 $p (X ∣ Y) = p (X) p (Y)$

先验概率(prior probability) & 后验概率(posterior probability)

（2）概率密度

$\geq 0$ $\int_{-\infty}^{\infty}p(x) dx = 1$

（3）期望
$\sum_x p(x)f(x) = \int p(x)f(x)dx$ $E_x[f|y] = \sum_x p(x|y)f(x)$

（4）方差 & 协方差

$var[f] = E[(f(x) - E[f(x)])^2] = E[f(x)^2] - E[f(x)]^2$ $cov(x,y) = E_{(x,y)}[{x-E[x]}{y-E[y]}] = E_{(x,y)}[xy] - E[x]E[y]$ $cov(x,y) = E_{(x,y)}[{x-E[x]}{y^T-E[y^T]}] = E_{(x,y)}[xy^T] - E[x]E[y^T]$
（5）高斯分布Gaussian Distribution

$N(x|\mu, \sigma^2) =\frac{1}{(2\pi \sigma^2)^{\frac{1}{2}}} exp(-\frac{(x - \mu)^2}{2\sigma^2})$ $\mu, var[x] = \sigma^2, precision = \frac{1}{\sigma^2}$
D维向量x的高斯分布(前提默认 $\sigma^2 = 1$ ， $\Sigma$ 为协方差矩阵， $|\Sigma|$ 为其行列式)：

$N(x|\mu, \Sigma) =\frac{1}{(2\pi)^{\frac{D}{2}}|\Sigma|^{\frac{1}{2}}} exp(-\frac{(x - \mu)^T\Sigma^{-1}(x - \mu)}{2})$
为了确定高斯分布中的参数，常常采用最大似然法(maximum likelihood)。但是这种方法常常系统化的低估了分布的方差，因此需要进行(n-1)/n的修正：

$\mu = E[\mu_{ML}] = E[\frac{1}{N}\sum^N_{n=1}x_n]$ $\sigma^2 = \frac{N}{N-1} E[\sigma_{ML}^2] = \frac{1}{N-1}\sum^N_{n=1}(x_n - \bar{x})^2$

（6）曲线拟合

最大化似然函数( $\beta$ 为精度函数)：
$\omega_{ML}, \beta_{ML}) = N(t|y(x, \omega_{ML}), \beta_{ML}^{-1})$ $\beta_{ML}^{-1} = \frac{1}{N}\sum_{n=1}^N(y(x_n, \omega_{ML}) - t_n)^2$

多项式系数w上的先验分布：
$p(\omega|\alpha) = N(\omega|0, \alpha^{-1}I) = (\frac{\alpha}{2\pi})^{\frac{M+1}{2}}exp(-\frac{\alpha}{2}\omega^T \omega)$

最大后验(maximum posterior)概率，简称MAP：
$p(\omega|x,t,\alpha,\beta) \propto p(t|x, \omega_{ML}, \beta_{ML}) p(\omega|\alpha)$
即最小化正则化的平方和误差函数(正则化系数为 $\frac{\alpha}{\beta}$ )：
$\frac{\beta}{2}\sum_{n=1}^N(y(x_n, \omega_{ML})-t_n)^2 + \frac{\alpha}{2}\omega^T \omega$

1.3 模型选择

通过验证集(validation set)选择预测表现最好的模型，但是如果验证集很小，那么它就会对预测表现的估计产生一定的噪声，因此采用交叉验证的方式。交叉验证主要有两种方式，一种是“k-fold cross validation”，一种是“leave-one-out cross validation”。

1.4 维度灾难

不是所有再低维空间的逻辑和直觉都可以直接推广到高维空间。但是有两个原因可以帮助我们在高维空间中继续探索：

真实数据常常被限制在较低维度的有效区间中。
真实数据通常比较光滑，对于输入变量的微小改变不会对输出数据造成较大影响，因此对于局部可以考虑采用插值法来进行处理。

1.5 决策论

（1）最小化错误分类率、最大化正确分类率

将每个输入样本x都被分类到最大后验概率 $p(x,C_k)$ 的类别中。
$\min p(mistake) = p(x \in R_1, C_2) + p(x \in R_2, C_1) = \int_{R_1} p(x,C_2)dx + \int_{R_2} p(x,C_1)dx$ $\max p(correct) = \sum_{k = 1}^K p(x \in R_k, C_k) = \sum_{k = 1}^K \int_{R_k} p(x,C_k)dx$

（2）最小化期望损失

假设 $L_{kj}$ 表示样本x原本属于k类却被分为j类的损失，那么最小化期望损失即：

$\min E[L] = \sum_k \sum_j \int_{R_j} L_{kj}p(x,C_k)dx = \sum_k \sum_j \int_{R_j} L_{kj}p(C_k|x)dx$

（3）拒绝选项： 当最大后验概率小于某个设定的阈值时，选择不作出推断，交由人类专家。

（4）推断和决策

生成式模型(generative models):对输入输出显式隐式地建模，可以通过采样人工生成数据点。而且可以通过求解得到边缘概率密度p(x)，检测模型中低概率的新数据点(离群点检测/异常检测)。 $max_i p(y_i|x)=p(x|y_i)p(y_i) / C$
判别式模型(discriminative models)：对后验概率 $p (y ∣ x)$ 建模。
判别函数(discriminant function)：把输入x直接映射为类别标签。

（4）回归问题的损失函数

$\int\int L(t, y(x))p(x, t)dxdt$ $\int\int \{y(x)-t\}^2p(x, t)dxdt = \int \{y - E[t|x]\}^2p(x) dx + \int var[t|x]p(x) dx$

1.6 信息论

（1）信息量：

信息量 h(x) 可以被看作是在学习x值时的“惊讶程度”，且满足：
$h (x, y) = h (x) + h (y)$ $p (x, y) = p (x) p (y)$
因为低概率的事件x应获得较高的信息量，因此h(x)应是如下形式：
$-\ln p(x)$

（2）熵(entropy)：

传输信息时得到的信息量的期望被称为“随机变量x的熵”：
$-\sum_x p(x)\ln p(x) = -\int p(x)\ln p(x)$
高斯分布的微分熵：
$-\int p(x)\ln p(x) = \frac{1}{2}[1+ln(2\pi \sigma^2)]$
联合概率分布的熵：
$-\int\int p(x,y)\ln p(x,y) dydx -\int p(x)\ln p(x)$

（3）KL(Kullback-Leibler)散度：

假设用分布 q(x) 拟合真实分布 p(x) ，用 q(x) 传输信息时需要的平均附加信息量被称为KL散度：
$-\int p(x)\ln q(x)dx - (-\int p(x)\ln p(x)dx) = -\int p(x)\ln\{ \frac{q(x)}{p(x)}\}dx$

将Jensen不等式 $f(\int xp(x)dx) \leq \int f(x)p(x)dx$ 应用于KL散度：
$-\int p(x)\ln\{ \frac{q(x)}{p(x)}\}dx \geq -\ln \int q(x)dx = 0$
因此， $\geq 0$ ，当且仅当 $p (x) = q (x)$ 时，等号成立。

最小化KL散度等价于最大化 $q(x|\theta)$ 的似然函数：
$\simeq \frac{1}{N} \sum_{n=1}^N \{ {-\ln q(x_n|\theta)} + \ln p(x_n) \}$

（4）互信息(mutual information)：

对于联合概率分布而言，其KL散度被称为变量x和y之间的互信息。可以将互信息看作是由于知道了y值而造成的x值不确定性的减小：
$-\int\int p(x,y)\ln\{ \frac{p(x)p(y)}{p(x,y)}\}dxdy$ $I [x, y] = H [x] - H [x ∣ y] = H [y] - H [y ∣ x]$

注：以上所有内容均为个人归纳整理，欢迎指正/提问/讨论~

今天也要加油鸭~

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【Book】Pattern Recognition and Machine Learning - 1 Introduction

机器学习经典入门书籍《模式识别与机器学习》第一章 Introduction包含基本问题，基本方法，基础数学知识。
复制链接

扫一扫

专栏目录