机器学习（3）

最新推荐文章于 2024-09-14 20:23:55 发布

Ab_stupid

最新推荐文章于 2024-09-14 20:23:55 发布

阅读量37

点赞数 1

分类专栏：机器学习文章标签：机器学习人工智能笔记

本文链接：https://blog.csdn.net/Ab_stupid/article/details/133693953

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一线性回归

1 线性模型

在这里插入图片描述
线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数。
$\cdots + w _ { d } x _ { d } + b$ 向量形式： $f ( x ) = w ^ { T } x + b$

2 线性回归

$f ( x _ { i } ) = w x _ { i } + b 使得 f ( x _ { i } ) ≃ y _ { i }$

离散属性的处理： 若有“序”（order），则连续化；否则，转化为 $k$ 维向量。
令均方误差最小化，有：
$\begin{align*} (w^*, b^*) &= \argmin_{(w,b)} \sum_{i=1}^{m} (f(x_i) - y_i)^2 \\ &= \argmin_{(w,b)} \sum_{i=1}^{m} (y_i - wx_i - b)^2 \end{align*}$

3 最小二乘解

对 $\sum _ { i = 1 } ^ { m } ( y _ { i } - w x _ { i } - b ) ^ { 2 }$ 进行最小二乘参数估计。
分别对 $w$ 和 $b$ 求导：
$\frac { \partial E _ { ( w , b ) } } { \partial w } = 2 ( w \sum _ { i = 1 } ^ { m } x _ { i } ^ { 2 } - \sum _ { i = 1 } ^ { m } ( y _ { i } - b ) x _ { i } )$ $\frac { \partial E _ { ( w,b) } } { \partial b } = 2 ( m b - \sum _ { i = 1 } ^ { m } ( y _ { i } - w x _ { i } ) )$ 令导数为0，得到闭式（closed-form）解：
$\frac { \sum _ { i = 1 } ^ { m } y _ { i }( x _ { i } - \bar{x} ) } { \sum _ { i = 1 } ^ { m } x _ { i } ^ { 2 } - \frac { 1 } { m } ( \sum _ { i = 1 } ^ { m } x _ { i } ) ^ { 2 } }$ $\frac { 1 } { m } \sum _ { i = 1 } ^ { m } ( y _ { i } - w x _ { i } )$

二多元线性回归

$f ( x _ { i } ) = w ^ Tx _ { i } + b 使得 f ( x _ { i } )≃ y _ { i }$

$\cdots ; x _ { i d } ) , y _ { i }∈R$

把 $w$ 和 $b$ 吸收入向量形式 $\hat{w} = ( w ; b )$ 数据集表示为：
在这里插入图片描述
同样用最小二乘法求解，有：

$\hat{w} ^ { * } = \operatorname { a r g } m i n ( y - X \hat{w} ) ^ { T } ( y - X\hat{w} )$

令 $_{ \hat{ w }} = ( y - X \hat{w} ) ^ { T } ( y - X\hat{w} )$ ，对 $\hat{ w }$ 求导：

$\frac { \partial E _ { w } } { \partial w _ { 0 } } = 2 X ^ { r } ( X w - y ) 令其为零可得\hat{ w }$

然而，麻烦来了：涉及矩阵求逆！

若 $X^TX$ 满秩或正定，则 $\hat{w} ^ { * } = ( X ^ { T } X ) ^ { - 1 } X ^ { T } y$
若 $X^TX$ 不满秩，则可解出多个 $\hat{w}$

此时需求助于归纳偏好，或引入正则化（regularization）

三广义线性模型

1 线性模型的变化

对于样例 $(x, y) ， y \in R$ ，希望线性模型的预测值逼近真实标记，得到线性回归模型 $y=w^Tx+b$
在这里插入图片描述
令预测值逼近 y 的衍生物
若令 $ln y = w ^ { T } x + b$ ，则得到对数线性回归（log-linear regression）
实际是在用 $e ^ { w ^ { T } x + b }$ 逼近 $y$

2 广义线性模型

一般形式： $y = g^{-1}(w^Tx+b)$
$g^{-1}$ 被称为单调可微的联系函数
令 $g(·)=\ln(·)$ 则得到对数线性回归
$ln y = w^Tx+b$

四对率回归

1 二分类任务

在这里插入图片描述

2 对率回归

以对率函数为联系函数：

$\frac { 1 } { 1 + e ^ { - z } }$ 变为 $\frac { 1 } { 1 + e ^ { - ( w ^ { T } x + b ) } }$

即： $\ln \frac { y } { 1 - y } = w ^ { T } x + b$

其中 $\ln \frac { y } { 1 - y }$ 被称为对数几率（log odds，亦称 logit），反应了 $x$ 作为正例的可能性。
“对数几率回归”（logistic regression）简称“对率回归”。

无需事先假设数据分布
可得到”类别“的近似概率预测
可直接应用现有的数值优化算法求取最优解

3 求解思路

若将 $y$ 看作类后验概率估计 $p (y = 1∣ x)$ ，则

$\ln \frac { y } { 1 - y } = w ^ { T } x + b$ 可写为：

$\ln \frac { p ( y = 1 | x ) } { p ( y = 0 | x ) } = w ^ { T } x + b$

于是，可使用“极大似然法”（maximum likelihood method）
$M A X （ (P (真是 +) P （预测为 + ） + P （真是 - ） P （预测为 - ）)$ 给定数据集 ${ ( x _ { i } , y _ { i } ) \} _ { i = 1 } ^ { m }$

最大化“对数似然”（log-likelihood）函数

$\sum _ { i = 1 } ^ { m } \ln p ( y _ { i } | x _ { i } ; w , b )$

令 $\beta = ( w ; b ) , \hat x = ( x ; 1 )$ ，则 $w^Tx+b$ 可简写为 $\beta ^ T \hat x$

再令 $(\hat x _ { i } ; \beta ) = p ( y = 1 | \hat x _ { i } ; \beta ) = \frac { e ^ { w ^ { T } x + b } } { 1 + e ^ {w^T x + b } }$

$\hat x _ { i } ; \beta ) = p ( y = 0 | \hat x _ { i } ; \beta ) = 1 - p _ { 1 } (\hat x _ { i } ; \beta ) = \frac { 1 } { 1 + e ^ {w^Tx + b }}$

则似然项可重写为 $}p_1 (\hat x _ { i } ; \beta ) + ( 1 - y _ { i } ) p _ { 0 } (\hat x _ { i } ; \beta )$

于是，最大化似然函数 $\sum _ { i = 1 } ^ { m } \ln p ( y _ { i } | x _ { i } ; w , b )$

等价为最小化 $\beta ) = \sum _ { i = 1 } ^ { m } ( - y _ { i } \beta ^T \hat x_ { i } + \ln ( 1 + e ^ { \beta ^T \hat x_ { i } } ) )$

高阶可导连续凸函数，可用经典的数值优化方法：如梯度下降法/牛顿法

五线性判别分析

1 线性判别分析（Linear Discriminant Analysis）

在这里插入图片描述
由于将样例投影到一条直线（低维空间），因此也被视为一种“监督降维”技术。

2 LDA的目标

给定数据集 ${ ( x _ { i } , y _ { i } ) \} _ { i = 1 } ^ { m }$

第 $i$ 类示例的集合 $X_i$

第 $i$ 类示例的均值向量 $\mu_i$

第 $i$ 类示例的 $\sum _ { i }$

两类样本的中心在直线上的投影： $w^T\mu_0$ 和 $w^T\mu_1$

两类样本的协方差： $w^T\sum_0w$ 和 $w^T\sum_1w$

同类样例的投影的尽可能接近 $w^T\sum_0w+w^T\sum_1w$ 尽可能小
异类样例的投影的尽可能远离 $w ^ { T } μ _ { 0 } - w ^ { T } u _ { 1 } | | _ { 2 } ^ { 2 }$ 尽可能大
于是，最大化
$\frac { | | w ^ { T } μ _ { 0 } - w ^ { T } μ _ { 1 } | | _ { 2 } ^ { 2 } } { w ^ { T } \sum _ { 0 } w + w ^ { T } \sum _ { 1 } w } =\frac { w ^ { T } ( μ _ { 0 } - μ _ { 1 } ) ( μ _ { 0 } - μ _ { 1 } ) ^ { T } w } { w ^ { T } ( \sum _ { 0 } + \sum _ { 1 } ) w }$ 类内散度矩阵（within-class scatter matrix）
$\begin{align*} S_w &= \sum_0 + \sum_1 \\ &= \sum_{x \in X_0} (x - \mu_0)(x - \mu_0)^T + \sum_{x \in X_1} (x - \mu_1)(x - \mu_1)^T \end{align*}$ 类间散度矩阵（between-class scatter matrix）
$\mu_ { 0 } - \mu _ { 1 } ) ( \mu _ { 0 } - \mu _ { 1 } ) ^ { T }$ LDA的目标：最大化广义瑞利商（generalized Rayleigh quotient）
$\frac { w ^ { T } S _ { b } w } { w ^ { T } S _ { w } w }$

3 求解思路

令 $w^TS_ww=1$ 最大化广义瑞利商等价形式为；
$m\underset w in - w ^ { T } S _ { b } w$ $s.t.：w ^ { T } S _ { w } w = 1$ 运用拉格朗日乘子法，有 $S_bw=\lambda S_ww$
由 $S_b$ 定义，有 $\mu _ { 0 } - \mu _ { 1 } ) ( \mu _ { 0 } - \mu _ { 1 } ) ^ { T } w$
注意到 $（\mu_ { 0 } - \mu _ { 1 }）^Tw$ 标量，令其等于 $\lambda$
于是 $\mu _ { 0 } - \mu _ { 1 } )$
实践中通常是进行奇异值分解 $S_w=U\sum V^T$
然后 $\sum ^ { - 1 } U ^ { T }$

六类别不平衡（class-imbalance）

不同类别的样本比例相差很大；“小类”往往更重要
基本思路：
若 $\frac { y } { 1 - y } \gt 1$ ，则预测为正例。 $- >$ 若 $\frac {y} {1-y} \gt \frac {m^+}{m^-}$ ，则预测为正例。
基本策略：——“再缩放”（rescaling）
$\frac { y ^ { \prime } } { 1 - y ^ { \prime } } = \frac { y } { 1 - y } \times \frac { m ^ { - } } { m ^+ }$ 然而，精确估计 $m^-/m^+$ 通常很困难！