【机器学习第三章——线性模型】

方寸星河yu

于 2024-07-20 00:22:05 发布

阅读量395

点赞数 4

文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_53694086/article/details/140562163

版权

机器学习第三章——线性模型

3.线性模型

3.线性模型

3.1基本形式

线性模型试图学得一个通过属性的线性组合来进行预测的函数

$f(x)=w_1x_1+w_2x_2+...+w_dx_d+b$

$向量形式：f(x)=w^T\bf{x}\rm{+b}\\ \bf{x}=\rm{(x_1,x_2,...,x_d)^T}$

离散属性的处理：若有“序”，则连续化；否则，转化为k维向量
- 高、矮：{1，0}
- 高、中、低：{1，0.5，0}
- 西瓜、南瓜、黄瓜：(1,0,0)、(0,1,0)、(0,0,1)

3.2线性回归

有一组数据集D
$\{(\bf{x}\rm{_1,y_1)},(\bf{x}\rm{_2,y_2)},...,(\bf{x}\rm{_m,y_m)}\}$

$\bf{x}\rm{_i=(x_{i1};x_{i2};...;x_{id})}$

使用这组数据集做出线性回归模型
$f(x_i)=wx_i+b,使得f(x_i)≈y_i$
试图让均方误差最小化，即满足下式的最小的w和b
$(w^*,b^*)=arg\,min_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2\\ =arg\,min_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2$

$J(w,b)=\sum_{i=1}^m(y_i-wx_i-b)^2=\sum_{i=1}^m(x_i^2w^2+y_i^2+b^2-2y_ix_iw-2y_ib-2wbx_i)\\ =(\sum x_i^2)w^2+mb^2+(-2\sum (x_iy_i))w+(-2\sum y_i)b+2\sum x_iwb+\sum y_i^2$

图像是如下的一个曲面，找出w和b的最小值，可以分别对w和b求偏导

$\frac{\partial J(w,b)}{\partial w}=2\sum_{i=1}^mx_i^2w-2\sum_{i=1}^mx_iy_i+2\sum_{i=1}^mx_ib\\ =2(w\sum_{i=1}^mx_i^2-\sum_{i=1}^m(y_i-b)x_i)$

$\frac{\partial J(w,b)}{\partial b}=2mb-2\sum_{i=1}^my_i+2\sum_{i=1}^mx_iw\\ =2\bigg(mb-\sum_{i=1}^m(y_i-wx_i)\bigg)$

当数据集D样本由多个d属性描述，也就是说，一个样本有多个属性，比如说第一个样本为
$x_i$
则它属性对应的值为
$x_{11},x_{12},...,x_{1d}$
此时我们用训练集D学得
$f(\bf{x}\rm{_i})=\bf{w}\rm{^T}\bf{x}\rm{_i+b,使得f(\bf{x}\rm{_i})≈y_i}$
这称为“多元线性回归”

在这里插入图片描述

$X\times \hat W=\begin{pmatrix} \hat y_1 \\ \hat y_2 \\.\\.\\.\\ \hat y_m \end{pmatrix}$

$\bf{y}\rm=\begin{pmatrix} y_1 \\ y_2 \\.\\.\\.\\ y_m \end{pmatrix}$

$\bf{y}\rm{-X\hat w}=\begin{pmatrix} y_1-\hat y_1 \\ y_2-\hat y_2 \\.\\.\\.\\ y_m-\hat y_m \end{pmatrix}$

同样采样最小二乘法求解，有
$\hat w^*=arg \, min (\bf{y}\rm{-X\hat w})^T(\bf{y}\rm{-X\hat w})$
令
$E_{\hat w}=(\bf{y}\rm{-X\hat w})^T(\bf{y}\rm{-X\hat w}),对\hat w 求导:$

$\frac{\partial E_{\hat w}}{\partial \hat w}=2\bf{X}\rm{^T}(\bf{X}\rm{\hat w}-y),令其为零可得\hat w$

若
$\bf{X}\rm{^T}\bf{X}$
满秩或正定，则
$\hat w^*=(X^TX)^{-1}X^Ty$
若
$\bf{X}\rm{^T}\bf{X}$
不满秩，则可解出多个
$\hat w^*$

这时需求助于归纳偏好，或引入正则化

对于样例
$(\bf{x}\rm{,y)},y\in R$
希望线性模型的预测值逼近真实标记，则得到线性回归模型
$y=w^Tx+b$
若令
$lny=w^Tx+b$
则可以得到对数线性回归

实际是在用
$e^{w^T+b}逼近y$

广义线性模型

一般形式：
$y=g^{-1}(w^Tx+b) g^{-1}为单调可微的联系函数$

3.3 对数几率回归

对数几率函数
$y=\frac{1}{1+e^{-z}}$

把
$z=w^Tx+b$
代入，可得
$y=\frac{1}{1+e^{-(w^Tx+b)}}$

无需事先假设数据分布
可得到“类别”的近似概率预测
可直接应用现有数值优化算法求取最优解

若将y看作类后验概率估计p(y=1|x)，则
$ln\frac{y}{1-y}=w^Tx+b$
可写为
$ln\frac{p(y=1|x)}{p(y=0|x)}=w^Tx+b$
于是，可使用“极大似然法”

给定数据集
$\{(\bf{x}\rm{_i,y_i)\}_{i=1}^m}$
最大化“对数似然”函数
$l(\bf{w}\rm{,b)}=\sum_{i=1}^mln\,p(y_i|\bf{x}\rm{_i;}\bf{w}\rm{,b})$
令
$\beta=(\bf{w}\rm{;b)},\hat x=(\bf{x}\rm{;1)}$

$\bf{w}\rm{^T}\bf{x}\rm{+b}可简写成\bf{\beta}\rm{^T}\bf{\hat x}$

再令
$p_1=(\hat x_i;\beta)=p(y=1|\hat x;\beta)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}$

$p_0=(\hat x_i;\beta)=p(y=0|\hat x;\beta)=1-p_1(\hat x;\beta)=\frac{1}{1+e^{w^Tx+b}}$

则似然项可重写为
$p(y_i|\bf{x}\rm{_i;}\bf{w}\rm{,b})=y_ip_1(\hat x;\beta)+(1-y_i)p_0(\hat x;\beta)$
于是，最大化似然函数
$l(\bf{w}\rm{,b)}=\sum_{i=1}^mln\,p(y_i|\bf{x}\rm{_i;}\bf{w}\rm{,b})$
等价为最小化
$l(\bf{w}\rm{,b)}=\sum_{i=1}^m(-y_i\beta^T\hat x_i+ln(1+e^{\beta^T\hat x_i}))$

3.4 线性判断分析(LDA)

由于将样例投影到一条直线（低维空间)，因此也被视为一种“监督降维”技术

给定数据集
$\{(\bf{x}\rm{_i,y_i})\}_{i=1}^m$

第i类示例的集合

$X_i$

第i类示例的均值向量

$\bf{\mu}\rm{_i}$

第i类示例的协方差矩阵

$\sum{}_i$

两类样本的中心在直线上的投影

$w^T\bf{\mu}\rm{_0}和w^T\bf{\mu}\rm{_1}$

两类样本的协方差

$w^T\sum{}_0 w和w^T\sum{}_1 w$

$同类样例的投影点尽可能接近->w^T\sum{}_0 w+w^T\sum{}_1 w尽可能小$

$异类样例的投影点尽可能远离->||w^T\bf{\mu}\rm{_0}-w^T\bf{\mu}\rm{_1}||_2^2尽可能大$

于是，最大化
$J=\frac{||w^T\mu_0-w^T\mu_1||^2_2}{w^T\sum{}_0 \,w+w^T\sum{}_1 \,w}\\ =\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\sum{}_0+\sum{}_1)w}$

类内散度矩阵

$s_w=\sum{}_0+\sum{}_1\\ =\sum_{x\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1}(x-\mu_1)(x-\mu_1)^T$

类间散度矩阵

$S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$

LDA的目标：最大化广义瑞利商
$J=\frac{w^TS_bw}{w^TS_ww}$
令
$w^TS_ww=1$
最大化广义瑞利商等价形式为
$min_w \,\, -w^TS_bw\\ s.t. w^TS_ww=1$
运用拉格朗日乘子法
$F=-w^TS_bw+\lambda(w^TS_ww-1)$

$\frac{\partial F}{\partial w}=-(S_b+S_b)^Tw+\lambda(S_w+S_w^T)w\\ =-2S_bw+\lambda2S_ww=0$

$\therefore S_bw=\lambda S_ww$

由
$S_b$
定义，有
$S_bw=(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw$
注意到
$(\mu_0-\mu_1)^Tw$
标量，令其等于
$\lambda$
于是
$w=S_w^{-1}(\mu_0-\mu_1)$
实践中通常是进行奇异值分解
$S_w=U\sum V^T$
然后
$S_w^{-1}=V\sum {}^{-1}U^T$
假定有N个类

全局散度矩阵
$S_t=S_b+S_w=\sum_{i=1}^m(x_i-\mu)(x_i-\mu)^T$
类内散度矩阵
$S_w=\sum_{i=1}^NS_{w_i}\quad\quad S_{w_i}=\sum_{x\in X_i}(x-\mu_i)(x-\mu_i)^T$
类间散度矩阵
$S_b=S_t-S_w=\sum_{i=1}^Nm_i(\mu_i-\mu)(\mu_i-\mu)^T$

$\color{red}{多分类LDA有多种实现方法：采用S_b,S_w,S_t中的任何两个}$

例如
$max_w\frac{tr(W^TS_bW)}{tr(W^TS_wW)}——>S_bW=\lambda S_wW\\ W\in R^{d\times(N-1)}\\ W的闭式解是S_w^{-1}S_b的d^,(\leq N-1)个最大非零广义特征值对应的特征向量组成的矩阵$

3.5 多分类学习

拆解法:将一个多分类任务拆分为若干个二分类任务求解

OvO
- 训练N(N-1)/2个分类器，存储开销和测试时间大
- 训练只用两个类的样例，训练时间短
OvR
- 训练N个分类器，存储开销和测试实践小
- 训练用到全部训练样例，训练时间长

3.6 类别不平衡问题

不同类别的样本比例相差很大;“小类”往往更重要

基本思路

$若\frac{y}{1-y}>1则预测为正例\quad ——>\quad 若\frac{y}{1-y}>\frac{m^+}{m^-}则预测为正例$

基本策略——“再缩放”

$\frac{y^,}{1-y}=\frac{y}{1-y}\times\frac{m^-}{m^+}$

然而，精确估计
$\frac{m^-}{m^+}$
通常很困难

常见类别不平衡学习方法
- 过采样：即增加一些正例使得正、反例数目接近，然后再进行学习
  例如：SMOTE
- 欠采样：即去除反例使得正、反例数目接近，然后再进行学习
  例如：EasyEnsemble
- 阈值移动：即直接基于原始训练集进行学习

方寸星河yu

关注

4
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【机器学习第三章——线性模型】

机器学习第三章——线性模型3.线性模型3.1基本形式3.2线性回归3.3 对数几率回归3.4 线性判断分析(LDA)3.5 多分类学习3.6 类别不平衡问题3.线性模型3.1基本形式线性模型试图学得一个通过属性的线性组合来进行预测的函数f(x)=w1x1+w2x2+...+wdxd+bf(x)=w_1x_1+w_2x_2+...+w_dx_d+bf(x)=w1x1+w2x2+...+wdxd+b向量形式：f(x)=wTx+bx=(x1,x2,...,xd)T向量形式：f(x)=
复制链接

扫一扫