【吃瓜笔记】第三章

最新推荐文章于 2024-07-19 16:33:18 发布

好人兄

最新推荐文章于 2024-07-19 16:33:18 发布

阅读量337

点赞数 1

文章标签：机器学习逻辑回归算法

本文链接：https://blog.csdn.net/KJuncle/article/details/126474732

版权

【吃瓜笔记】第三章

一、线性模型

一般形式：
$\begin{equation}\begin{split} f(x) &=\omega_{1}x_{1}+\omega_{2}x_{2} + \cdots +\omega_{d}x_{d}\\ &=\overrightarrow \omega^T \overrightarrow x + b \end{split}\end{equation}$

1、线性回归（linear regression）

单输入情况：

对离散属性，若存在“序”关系，将其连续化
若不存在“序”关系，假定有K个属性值，转化为k维向量

均方误差:具有几何意义，对应了欧式距离

基于均方误差最小化来进行模型求解的方法——“最小二乘法”（least square method)

最小二乘法就是试图找到一条直线，使所有样本到直线上的欧式距离之和最小

$\begin{equation}\begin{split} (\omega^*,b^*)&=arg \enspace min \sum_{i=1}^{m}(f(x_{i})-y_{i})^2\\ &=arg \enspace min \sum_{i=1}^{m}(y_{i}- \omega x_{i}-b_{i})^2 \end{split}\end{equation}$

线性回归模型的最小二乘“参数估计"(parameter estimation)
$\frac{\partial E_{(\omega,b)}}{\partial \omega} = 2(\omega \sum_{i=1}{m}(y_{i}-b)x_{i})\\ \frac{\partial E_{(\omega,b)}}{\partial b} = 2(mb- \sum_{i=1}^{m}(y_{i}- \omega x_{i}))$
令上式为零得到 $\omega$ 和 $b$ 最优解的闭式解
$\omega = \frac{\sum_{i=1}^{m} y_{i} (x_{i}- \overline x)}{\sum_{i=1}^{m}x_{i}^2 -\frac{1}{m}(\sum_{i=1}^{m}x_{i})}\\ b=\frac{1}{m} \sum_{i=1}^{m}(y_{i}- \omega x_{i})$

2 、多元线性回归

在数据集D，样本由d个属性描述
$f(x_{i})= \omega^T x_{i}+b,使得f(x_{i})\approx y_{i}$
$\omega$ 与 $b$ 构成向量 $\hat \omega = (\omega ;b)$ ；数据集D表示为一个 $\times (d+1)$ 大小的矩阵 $X$
$\begin{pmatrix} x_{1}^T &1\\ x_{2}^T &1\\ \vdots &\vdots \\ x_{m}^T &1\\ \end{pmatrix},则有\\ \overrightarrow \omega^* = arg \enspace min(\overrightarrow y-\overrightarrow X \; \overrightarrow \omega)^T(\overrightarrow y- \overrightarrow X \; \overrightarrow \omega)$
对$ \overrightarrow \omega$求导得：
$\frac{\partial E_{\overrightarrow \omega }}{\partial \overrightarrow \omega}=2 \overrightarrow X^T(\overrightarrow X \; \overrightarrow \omega-\overrightarrow y)$
令上式=0 $\Rightarrow \overrightarrow \omega$ 最优解的闭式解

1、当 $X^T X$ 为满秩矩阵或正定矩阵
$\overrightarrow \omega^* = （X^T X）^{-1}\;X^T y\\ f(x_{i})= \overrightarrow x_{i} （X^T X）^{-1}\;X^T y$
2、非满秩矩阵，解出多个 $\overrightarrow \omega$ 。常见的做法是引入正则化项，由算法的归纳偏好决定

3、广义线性模型

$y=g^{-1}(\overrightarrow \omega^Tx +b)\\$

g(·)称为联系函数

二、对数几率回归

对数几率函数
$\frac{y}{1-y}=\omega^Tx+b$
将y视为类后验概率为 $P (y = 1∣ x)$ ,则
$\frac{P(y=1|x)}{P(y=0|x)}=\omega^Tx+b$
通过“极大似然法”来估计 $\omega$ 和b。给定数据集 ${(x_{i},y_{i} )\}_{i=1}^m$ ，对率回归模型最大化“对数似然”
$l(\beta)= \sum_{i=1}^{m}(-y_{i}\beta^Tx_{i}+ln(1+e^{\beta^{T}x_{i}}))$

凸优化理论

经典的数值优化算法：梯度下降法、牛顿法

三、线性判别分析

给定训练样例集，设法将样例投影到一条直线，同类点尽可能靠近，异类点尽可能远离。新样本同样投影到该直线，根据投影点位置判断

同类样例尽可能靠近，则同类的协方差尽可能小
异类尽可能远离，则类中心距离尽可能大

类内散度矩阵：
$\begin{equation}\begin{split} J&=\frac{||\omega^T \mu_{0}-\omega \mu_{1}||_{2}^{2}}{\omega^T \sum_{0}\omega+\omega^T \sum_{1}\omega}\\ \\ &=\frac{\omega^T(\mu_{0}-\mu_{1})(\mu_{0}-\mu_{1})^{T}\omega}{\omega^{T}\sum_{0}\omega+\omega^{T}\sum_{1}\omega} \end{split}\end{equation}$
类间散度矩阵：
$S_{\omega}= \sum_{x \in x_{0}}(x-\mu_{0})(x-\mu_{0})^T+\sum_{x \in x_{1}}(x-\mu_{1})(x-\mu_{1})^T$
LDA最大化目标“广义瑞利商”：
$J=\frac{\omega^TS_{b}\omega}{\omega^TS_{\omega}\omega}$

四、多分类学习

多分类学习的基本思路是“拆解法”，拆成若干个二分类

1、拆分策略：

（1）、一对一

产生N(N-1)/2个二分类任务。新样本同时提交给所有分类器，把预测最多的类别作为最终的分类结果

（2）、一对其余

每次将一个类的样例作为正例、其他类的样例作为反例训练N个分类器

测试时，若仅有一个正类预测，则该标记为最终结果；若有多个正类预测，选置信度最大的为最终结果

（3）、多对多

纠错输入码

编码：进行M次划分，形成M个分类器
解码：M个分类器的预测标记组成编码，与个类别的编码进行比较，返回距离最小的类比作为最终预测结果
编码矩阵
- 二元码：正类、反类
- 三元码：正类、反类、停用类
海明距离：两个合法代码对应位上编码上的不同的位数成为码距，又叫海明距离

五、类别不平衡

指分类任务中不同类别的训练样例数目差别很大的情况。类别不平衡学习的一个基本策略——“再缩放”
$\frac{y^{'}}{1-y^{'}}= \frac{y}{1-y} \times \frac{m^-}{m^+}$
因为“训练集是真实样本总体的无偏采样”这个假设往往不成立。“再缩放”未必能有效地基于训练集观测几率来推断出真实几率