《机器学习》——读书笔记2

最新推荐文章于 2022-10-05 05:30:00 发布

水木-刘

最新推荐文章于 2022-10-05 05:30:00 发布

阅读量551

点赞数

本文链接：https://blog.csdn.net/u013319237/article/details/54847439

版权

事实证明，寒假在家也并不能高效工作，年前准备过年，年后没事了，想动手却冻手，幸好姥姥家里暖和，过年姥姥又伤风感冒，姥姥今年74，姥爷今年81，今天本来到邢台的，但是放心不下又回来了，愿姥姥姥爷健康长寿，别无他求。

第 3 章线性模型

3.1 基本形式

给定由d个属性描述的实例 $\boldsymbol{x}=(x_1;x_2;...;x_d)$ ,线性模型试图学得一个通过属性的线性组合来进行预测的函数，即 $f(x)=w_1x_1+w_2x_2+...+w_dx_d+b$ 用向量形式写成 $f(\boldsymbol{x})=\boldsymbol{w}^T\boldsymbol{x}+b$ .
由于 $\boldsymbol{w}$ 直观表达了个属性在预测中的重要性，因此线性模型有很好的可解释性。

3.2 线性回归

给定数据集 $D=\{(\boldsymbol{x}_1,y1),(\boldsymbol{x}_2,y_2),...,(\boldsymbol{x}_m,y_m)\}$ ,其中 $\boldsymbol{x}_i=(x_{i1};x_{i2};...;x_{id}),y_i\in \mathbb{R}$ . “线性回归”试图学得一个线性模型以尽可能准确地预测实值输出标记。
对离散属性，若属性值间存在“序”关，可通过连续化将其转化为连续值；若属性值间不存在序关系，假定有k个属性值，则通常转化为k维向量。

先考虑最简单的情形：输入属性的数目只有一个
线性回归试图学得

f (x i) = w x i + b, 使 得 f (x i) ≃ y i

$f(x_i)=wx_i+b, 使得f(x_i)\simeq y_i$ 利用均方误差最小化确定w,b

(w *, b *) = arg min (w, b) \sum i = 1 m (f (x i) - y i) 2 = arg min (w, b) \sum i = 1 m (y i - w x i - b) 2

$(w^*,b^*)={\arg \min}_{(w,b)} \sum_{i=1}^m(f(x_i)-y_i)^2={\arg \min}_{(w,b)} \sum_{i=1}^m(y_i-wx_i-b)^2$
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
求解w和b使

E(w,b)=∑mi=1(yi−wxi−b)2 $E(w,b)=\sum_{i=1}^m(y_i-wx_i-b)^2$ 最小化的过程，称为线性回归模型的最小二乘“参数估计”。将

E(w,b) $E(w,b)$ 分别对w和b求导，得

\partial E ( w , b ) \partial w = 2 (w \sum i = 1 m x 2 i - \sum i = 1 m (y i - b) x i), \partial E ( w , b ) \partial b = 2 (m b - \sum i = 1 m (y i - w x i)),

$\frac{\partial E_{(w,b)}}{\partial w}=2\left(w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i \right),\\ \frac{\partial E_{(w,b)}}{\partial b}=2\left(mb-\sum_{i=1}^m(y_i-wx_i) \right),$ 令上式得零得到w和b最优解的闭式解

w = \sum m i = 1 y i ( x i - x ¯ ) \sum m i = 1 x 2 i - 1 m ( \sum m i = 1 x i ) 2, b = 1 m \sum i = 1 m (y i - w x i),

$w=\frac{\sum_{i=1}^my_i(x_i-\bar{x})}{\sum_{i=1}^mx_i^2-\frac 1m\left(\sum_{i=1}^mx_i\right)^2},\\b=\frac 1m\sum_{i=1}^m(y_i-wx_i),$
更一般的情形，样本由d个属性描述
此时我们试图学得

f (x i) = w T x i + b, 使 得 f (x i) ≃ y i

$f(\boldsymbol{x}_i)=\boldsymbol{w}^T\boldsymbol{x}_i+b,使得f(\boldsymbol{x}_i)\simeq y_i$ 这称为“多元线性回归”
把数据集D表示为大小为

m×(d+1) $m\times (d+1)$ 大小的矩阵

X $\boldsymbol{X}$ ，

X = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x 11 x 21 ⋮ x m 1 x 12 x 22 ⋮ x m 2 \dots \dots ⋱ \dots x 1 d x 2 d ⋮ x m d 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ x T 1 x T 2 ⋮ x T m 11 ⋮ 1 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟

$\boldsymbol{X}=\left(\begin{array}{c}x_{11}&x_{12}&\ldots &x_{1d}&1\\ x_{21}&x_{22}&\ldots &x_{2d}&1\\ \vdots &\vdots&\ddots&\vdots &\vdots\\ x_{m1}&x_{m2}&\ldots &x_{md}&1\\ \end{array} \right)=\left(\begin{array}{c}\boldsymbol{x}_1^T & 1\\ \boldsymbol{x}_2^T & 1\\ \vdots&\vdots\\ \boldsymbol{x}_m^T & 1\\ \end{array} \right)$
再把标记也写成向量形式

y=(y1;y2;…;ym) $\boldsymbol{y}=(y_1;y_2;\ldots;y_m)$ ，则类似均方误差，有

w^* = arg min w^(y - X w^) T (y - X w^)

$\hat{\boldsymbol{w}}^*=\arg \min_\hat{\boldsymbol{w}}(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}})^T(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}})$
令

Ew^=(y−Xw^)T(y−Xw^) $E_{\hat{\boldsymbol{w}}}=(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}})^T(\boldsymbol{y}-\boldsymbol{X}\hat{\boldsymbol{w}})$ ,对

w^ $\hat{\boldsymbol{w}}$ 求导得到

\partial E w ^ \partial w ^= 2 X T (X w^- y) （ 这 里 对 矩 阵 求 导 不 懂 ）

$\frac{\partial E_{\hat{\boldsymbol{w}}}}{\partial {\hat{\boldsymbol{w}}}}=2\boldsymbol{X}^T(\boldsymbol{X}\hat{\boldsymbol{w}}-\boldsymbol{y})\qquad \mbox{（这里对矩阵求导不懂）}$
当

XTX $\boldsymbol{X}^T\boldsymbol{X}$ 为 满秩矩阵时，令上式为零可得

w^* = (X T X) - 1 X T y

$\hat{\boldsymbol{w}}^*=(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}$ 令

x^i=(xi;1) $\hat{\boldsymbol{x}}_i=(\boldsymbol{x}_i;1)$ ,则最终学得的多元线性回归模型为

f (x^i) = x^T i (X T X) - 1 X T y

$f(\hat{\boldsymbol{x}}_i)=\hat{\boldsymbol{x}}_i^T(\boldsymbol{X}^T\boldsymbol{X})^{-1}\boldsymbol{X}^T\boldsymbol{y}$

然而，现实任务中 $\boldsymbol{X}^T\boldsymbol{X}$ 往往不是满秩矩阵，此时可解出多个 $\hat{\boldsymbol{w}}$ 。选择哪一个解作为输出，将由悬系算法的归纳偏好决定，常见的做法是引入正则化项。

线性模型的变形
线性模型的预测值逼近真是标记y时，就得到线性回归模型。
线性回归模型简写为

y = w T x + b

$y=\boldsymbol{w}^T\boldsymbol{x}+b$
令模型预测值逼近y的衍生物，例如：

lny=wTx+b $\ln y=\boldsymbol{w}^T\boldsymbol{x}+b$ ——”对数线性回归”，实质上在求取输入空间到输出空间的非线性函数映射。

广义线性模型
考虑单调可微函数g(.)，令 $y=g^{-1}(\boldsymbol{w}^T\boldsymbol{x}+b)。$

3.3 对数几率回归

上一节讨论使用线性模型进行回归学习，对于分类任务，只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。
对于二分类任务，可通过“单位阶跃函数”把线性回归模型产生的预测值 $z=\boldsymbol{w}^T\boldsymbol{x}+b$ 对应到输出标记 $y\in \{0,1\}$ 。

“ 单 位 阶 跃 函 数 ” y = ⎧ ⎩ ⎨ ⎪ ⎪ 0, 0.5, 1, z < 0; z = 0; z > 0;

$“单位阶跃函数”\qquad y=\left\{\begin{array}{c}0,&z<0;\\ 0.5,&z=0;\\ 1,&z>0; \end{array} \right.$
但是单位阶跃函数不连续，不可直接作为“广义线性模型”中的

g−(.) $g^-(.)$ ，可用对数几率函数

y = 1 1 + e - z

$y=\frac1{1+e^{-z}}$ 替代之。

对数几率函数是一种“Sigmoid函数”，它将z值转化为一个接近0或1的y值，并且其输出值在z=0附近变化很陡。
将对数几率函数代入

y = 1 1 + e - ( w T x + b ) . (1) ln y 1 - y = w T x + b

$y=\frac 1{1+e^{-(\boldsymbol{w}^T\boldsymbol{x}+b)}}.(1)\\\ln\frac y{1-y}=\boldsymbol{w}^T\boldsymbol{x}+b$
若将y视为样本

x $\boldsymbol{x}$ 作为正例的可能性，则1-y时期反例可能性，故“对数几率”为：

ln y 1 - y

$\ln\frac y{1-y}$

小结：（1）式是在用线性回归模型的预测结果去逼近真实标记的对数几率，因此，其对应的模型称为“对数几率回归”，是一种分类学习方法。
优点：
- 直接对分类可能性进行建模，无需实现假设数据分布，这样就避免了假设分布不准确所带来的问题。
- 不仅预测出“类别”，还可得到近似概率预测。
- 对率函数是任意阶可导的凸函数，现有的许多数值优化算法都可直接用于求取最优解。

确定（1）中的w和b（这里不太懂）
若将式（1）中的y视为类后验概率估计p(y=1|x),则

ln p ( y = 1 | x ) p ( y = 1 | x ) = w T x + b p (y = 1 | x) = e w T x + b 1 + e w T x + b p (y = 1 | x) = 1 1 + e w T x + b

$\ln \frac{p(y=1|\boldsymbol{x})}{p(y=1|\boldsymbol{x})}=\boldsymbol{w}^T\boldsymbol{x}+b\\p(y=1|\boldsymbol{x})=\frac {e^{\boldsymbol{w}^T\boldsymbol{x}+b}}{1+e^{\boldsymbol{w}^T\boldsymbol{x}+b}}\\p(y=1|\boldsymbol{x})=\frac {1}{1+e^{\boldsymbol{w}^T\boldsymbol{x}+b}}$
于是，通过“极大似然法”估计w和b。对率回归模型最大化“对数似然”

l (w, b) = \sum i = 1 m ln p (y i | x i; w, b) (2)

$l(\boldsymbol{w},b)=\sum_{i=1}^m\ln p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)\qquad (2)$ 即令每个样本属于其真实标记的概率越大越好。
为便于讨论，令

β=(w,b),x^=(x;1), $\boldsymbol{\beta}=(\boldsymbol{w},b),\hat{\boldsymbol{x}}=(\boldsymbol{x};1),$ 则

wTx+b $\boldsymbol{w}^T\boldsymbol{x}+b$ 可简写为

βTx^ $\boldsymbol{\beta}^T\hat{\boldsymbol{x}}$ .再令

p1(x^;β)=p(y=1|x^;β),p0(x^;β)=p(y=0|x^;β)=1−p1(x^;β) $p_1(\hat{\boldsymbol{x}};\boldsymbol{\beta})=p(y=1|\hat{\boldsymbol{x}};\boldsymbol{\beta}),p_0(\hat{\boldsymbol{x}};\boldsymbol{\beta})=p(y=0|\hat{\boldsymbol{x}};\boldsymbol{\beta})=1-p_1(\hat{\boldsymbol{x}};\boldsymbol{\beta})$ ，则(2)式中的似然项可重写为

p (y i | x i; w, b) = y i p 1 (x^i; β) + (1 - y i) p 0 (x^i; β)

$p(y_i|\boldsymbol{x}_i;\boldsymbol{w},b)=y_ip_1(\hat{\boldsymbol{x}}_i;\boldsymbol{\beta})+(1-y_i)p_0(\hat{\boldsymbol{x}}_i;\boldsymbol{\beta})$
最小化（2）式等价于最小化

l (β) = \sum i = 1 m (- y i β T x^i + ln (1 + e β T x^i))

$l(\boldsymbol{\beta})=\sum_{i=1}^m\left(-y_i\boldsymbol{\beta}^T\hat{\boldsymbol{x}}_i+\ln \left(1+e^{\boldsymbol{\beta^T\hat{\boldsymbol{x}}_i}}\right) \right)$

3.4 线性判别分析

Linear Discriminant Analysis，LDA 一种经典的线性学习方法，用于二分类问题。亦乘“Fisher”判别分析。
LDA思想：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；在对新样本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新样本的类别。

假设条件：给定数据集 $D=\{(\boldsymbol{x}_i,y_i)\}_{i=1}^m,y_i\in \{0,1\}$ ,令 $X_i、\mu_i、\Sigma_i$ 分别表示第 $i\in \{0,1\}$ 类示例的集合、均值向量、协方差矩阵。
思想实现：欲使同类样例的投影点尽可能接近，可以让同类样例投影点的协方差尽可能小，即 $\boldsymbol{w}^T\Sigma_0\boldsymbol{w}+\boldsymbol{w}^T\Sigma_1\boldsymbol{w}$ 尽可能小；而欲使异类样例的投影点尽可能远离，可以让类中心之间的距离尽可能大，即 $||\boldsymbol{w}^T\boldsymbol{\mu}_0-\boldsymbol{w}^T\boldsymbol{\mu}_1||_2^2$ 尽可能大。即最大化下式

J = w T μ 0 - w T μ 1 | | 2 2 w T Σ 0 w + w T Σ 1 w (3)

$J=\frac{\boldsymbol{w}^T\boldsymbol{\mu}_0-\boldsymbol{w}^T\boldsymbol{\mu}_1||_2^2}{\boldsymbol{w}^T\Sigma_0\boldsymbol{w}+\boldsymbol{w}^T\Sigma_1\boldsymbol{w}}\qquad (3)$ 定义“类内散度矩阵”

S w = Σ 0 + Σ 1 = \sum x \in X 0 (x - μ 0) (x - μ 0) T + \sum x \in X 1 (x - μ 1) (x - μ 1) T

$\boldsymbol{S}_w=\boldsymbol{\Sigma}_0+\boldsymbol{\Sigma}_1\\=\boldsymbol{\sum}_{\boldsymbol{x}\in X_0}(\boldsymbol{x}-\boldsymbol{\mu}_0)(\boldsymbol{x}-\boldsymbol{\mu}_0)^T+\boldsymbol{\sum}_{\boldsymbol{x}\in X_1}(\boldsymbol{x}-\boldsymbol{\mu}_1)(\boldsymbol{x}-\boldsymbol{\mu}_1)^T$
以及“类间散度矩阵”

S b = (μ 0 - μ 1) (μ 0 - μ 1) T

$\boldsymbol{S}_b=(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)(\boldsymbol{\mu}_0-\boldsymbol{\mu}_1)^T$
则式（3）可重写为

J = w T S b w w T S w w

$J=\frac{\boldsymbol{w}^T\boldsymbol{S}_b\boldsymbol{w}}{\boldsymbol{w}^T\boldsymbol{S}_w\boldsymbol{w}}$
这就是LDA欲最大化的目标，即

Sb $\boldsymbol{S}_b$ 与

Sw $\boldsymbol{S}_w$ 的“广义瑞利商”

水木-刘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习》——读书笔记2

事实证明，寒假在家也并不能高效工作，年前准备过年，年后没事了，想动手却冻手，幸好姥姥家里暖和，过年姥姥又伤风感冒，姥姥今年74，姥爷今年81，今天本来到邢台的，但是放心不下又回来了，愿姥姥姥爷健康长寿，别无他求。第 3 章线性模型3.1 基本形式给定由d个属性描述的实例x=(x1;x2;...;xd)\boldsymbol{x}=(x_1;x_2;...;x_d),线性模型试图学得一个通过属性的线
复制链接

扫一扫