周志华《机器学习》(西瓜书)入门学习笔记3

1. 调参与最终模型

算法的参数:一般由人工设定,亦称“超参数”

模型的参数:一般由学习确定。

  • 调参过程相似:先产生若干模型,然后基于某种评估方法进行选择。
  • 参数调的好不好往往对最终性能有关键影响

区别:考虑有调参数的需求之后,训练集用于训练模型,验证集专门用来调参数,调好后用测试集测试。因此验证集也可以看成一种测试集。算法参数选定后,要用“训练集+验证集”重新训练最终模型

2. 模型选择

三个关键问题:

  • 如何获得测试结果——评估方法
  • 如何判断性能优劣——性能度量
  • 如何判断实质差别——比较检验

在某种度量下取得评估结果后,是否可以直接比较以评判优劣?,原因:

  • 测试性能不等于泛化性能。
  • 测试性能随着测试集的变化而变化。
  • 很多机器学习算法本身有一定的随机性。

机器学习得到的都是“概率近似正确”,不能从某次确定性的比较得到结论。

常用方法:

  • 统计假设检验(hypothesis test)为学习器性能比较提供了重要依据。
两学习器比较:

3. 线性模型

 线性模型简单,基本,可理解性好

  • 线性回归:f(x_i)=wx_i+b使得 f(x_i)\rightarrow y_i 。
  • 线性回归非常善于处理数值属性。对于离散属性的处理,若有序则可连续化(如高中低),有些无序离散的数据无法当作数值引入,使用k维向量来定义区分他们。如:红色[010],绿色[100],蓝色[001]。
  • 注:分号表示列向量,如[x1; x2], 逗号表示行向量,如[x1,x2]。
  • 令均方误差最小化,有最小二乘解

 (w*,b*)为最优值。        由于线性回归误差值可以无限大,因此找到的偏导零点一定是最小值点,即偏差最小的点。

4. 多元线性回归

f(x_i) = w^Tx_i + b使得f(x_i)=y_i,其中x_i = (x_{i1}; x_{i2}; ... x_{id}) ,y_i \in R

把w和b吸收入向量形式\hat{w}=(w;b)数据集表示为

 同样采用最小二乘法求解,有

\hat{w}^*=argmin(y-X\hat{w})^T(y-X\hat{w})

E_{\hat{w}} = (y-X\hat{w})^T(y-X\hat{w}),对\hat{w}求导:

{\partial E_{\hat{w}}/ \partial \hat{w}} = 2X^T(X\hat{w} - y) 令其为0可得\hat{w}

  • 然而,麻烦来了:涉及矩阵求逆!

X^TX满秩或正定,则\hat{w}^* = (X^TX)^{-1}X^Ty

X^TX不满秩,则可解出多个\hat{w}

此时需求助于归纳偏好,或引入正则化(regularization)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值