【西瓜书】第三章线性模型---学习笔记

最新推荐文章于 2024-10-15 10:20:47 发布

qq_31514061

最新推荐文章于 2024-10-15 10:20:47 发布

阅读量208

点赞数

分类专栏：西瓜书文章标签：学习

本文链接：https://blog.csdn.net/qq_31514061/article/details/125380601

版权

西瓜书专栏收录该内容

5 篇文章 0 订阅

订阅专栏

线性模型

1.基本形式

线性模型是通过属性的线性组合来进行预测的函数，形式如下
$f(x)=w_1 x_1+w_2 x_2+⋯+w_i x_i+b$
简化写成向量形式：
$f(x) = w^Tx + b$ ---------------------------------------------------------------------------------(1)
其中 $w$ = ( $w_1,w_2...;w_i$ ).这里 $w 和 b$ 学得之后就可以确定模型。

2.线性回归

将属性转化为数值：对离散属性，若属性值间存在“序”关系，则转化为连续值，例如：二值属性“胖瘦”的取值“胖” “瘦可转化为{1.0，0.0}
非连续属性值可以转化为k维向量。

2.1均方误差最小化

$f(x_i) = w^Tx_i + b$ ，要使预测值 $f(x_i) \simeq y_i$ ，需要确定 $w ， b$ 的取值，使得所有样本到直线上的直线距离之和最小，这里就要用到均方误差最小化来求解。
$\Sigma_i^m(y_i - wx_i - b)^2$ i从1开始

2.2证明凸函数

凸集：若两个点属于同一个集合，则这两点连线上的任意一点都属于此集合。
凸函数：设D是非空凸集， $f$ 是定义在D上的函数，如果对于任意的 $x_1,x_2\in D,\alpha\in(0,1)$ ,均有
$f(\alpha x_1 + (1-\alpha) x_2) \le\alpha f(x_1) + (1-\alpha)f(x_2)$
则称为 $f$ 为 $D$ 上的凸函数。
注意：这里说的凸函数和高数中的凸函数不一样。
在这里插入图片描述
证明 $E (w, b)$ 是关于 $w 和 b$ 的凸函数，就是证明各分量二阶偏导数 $\frac{\partial^2f(x)}{\partial x_i\partial x_j}$ 都存在。

2.3用凸函数求最值求解 $w ， b$

2.4 极大似然估计求最大值等价于求均方差最小值

3.对数几率回归

在线性模型的基础上套一个映射函数，来实现分类功能。
在这里插入图片描述
映射函数为对数几率函数：
$\frac{1}{1+e^-z}$
然后用极大似然对数来估计 $w 和 b$ ,
$l(\beta) = \Sigma^{m}_{i=1}lnp(y_i|x_i;w,b),$
对数几率回归算法的机器学习三要素：
1.模型：线性模型输出值为【0，1】，近似阶跃函数，单调可微
2.策略：极大释然估计
3.算法：梯度下降法

4.线性判别分析

算法原理：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点足够近，异类的样例的投影点足够远
在这里插入图片描述
损失函数： $\ J = \frac{||w^T\mu_0-w^T\mu_1||_2^2}{w^T({\sum}_0+{\sum}_1)w}$ 。 $其中||_2$ 表示二范数：向量的模长
$\frac{w^T(\mu_0-\mu_1)^T(\mu_0-\mu_1)w}{w^T({\sum}_0+{\sum}_1)w}$
可将上式重写为： $\max J = \frac{w^TS_bw}{w^TS_ww}$
$S_w 矩阵是固定的，w模长不影响上式$
令 $w^TS_ww = 1$
把上式转为最小化问题
$min -w^TS_bw$ 最小时原式最大