周志华《机器学习》（西瓜书）入门学习笔记3

最新推荐文章于 2024-09-06 15:00:00 发布

wesker1121

最新推荐文章于 2024-09-06 15:00:00 发布

阅读量64

点赞数

分类专栏：西瓜书机器学习文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/m0_72741580/article/details/132348842

版权

3 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

算法的参数：一般由人工设定，亦称“超参数”

模型的参数：一般由学习确定。

区别：考虑有调参数的需求之后，训练集用于训练模型，验证集专门用来调参数，调好后用测试集测试。因此验证集也可以看成一种测试集。算法参数选定后，要用“训练集+验证集”重新训练最终模型。

在某种度量下取得评估结果后，是否可以直接比较以评判优劣？否，原因：

机器学习得到的都是“概率近似正确”，不能从某次确定性的比较得到结论。

线性模型简单，基本，可理解性好。

线性回归： $f(x_i)=wx_i+b$ 使得 $f(x_i)\rightarrow y_i$ 。
线性回归非常善于处理数值属性。对于离散属性的处理，若有序则可连续化（如高中低），有些无序离散的数据无法当作数值引入，使用k维向量来定义区分他们。如：红色[010],绿色[100],蓝色[001]。
注：分号表示列向量，如[x1; x2], 逗号表示行向量，如[x1,x2]。
令均方误差最小化，有最小二乘解：

(w*,b*)为最优值。由于线性回归误差值可以无限大，因此找到的偏导零点一定是最小值点，即偏差最小的点。

$f(x_i) = w^Tx_i + b$ 使得 $f(x_i)=y_i$ ，其中 $x_i = (x_{i1}; x_{i2}; ... x_{id})$ , $y_i \in R$

把w和b吸收入向量形式 $\hat{w}=(w;b)$ 数据集表示为

同样采用最小二乘法求解，有

$\hat{w}^*=argmin(y-X\hat{w})^T(y-X\hat{w})$

另 $E_{\hat{w}} = (y-X\hat{w})^T(y-X\hat{w})$ ,对 $\hat{w}$ 求导：

${\partial E_{\hat{w}}/ \partial \hat{w}} = 2X^T(X\hat{w} - y)$ 令其为0可得 $\hat{w}$

若 $X^TX$ 满秩或正定，则 $\hat{w}^* = (X^TX)^{-1}X^Ty$

若 $X^TX$ 不满秩，则可解出多个 $\hat{w}$ 。

此时需求助于归纳偏好，或引入正则化(regularization)

关注

专栏目录