机器学习之二:线性模型

一、基本形式

1)定义

已知示例x,线性模型想要学习一个由属性的线性组合进行预测的函数,可表示为y=wTx+b

2)优势

  1. 线性模型形式简单,易于建模
  2. 可在线性模型的基础上通过引入层级结构或高维映射得到功能更强大的非线性模型
  3. 由于 w 直观的表达了各属性的重要程度,故线性模型具有很好的可解释性

二、线性回归

学习 w,b 的方法:均方误差最小化;
基于均方误差最小化来进行模型求解的方法:最小二乘法;
在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到直线上的欧氏距离之和最小。

三、对数几率回归

1)定义

使用线性模型做分类任务:找到一个单调可微函数将分类任务的输出与线性回归模型的预测值联系起来。
阶跃函数具有预期的性质但不连续,故需找到一种替代函数。
对数几率函数 y=11+ez 即是替代函数中的一种(该函数也是sigmoid函数族中最重要的代表)。
z代入,可得
y=11+e(wTx+b)
该函数可变形为
lny1y=wTx+b
若将 y 视为 x 作为正例的可能性,1y 作为反例的可能性,则 y1y 称为几率,反映了输入样本x为正的相对可能性。故而上式实际上为用线性回归模型的预测输出逼近真实标记的对数几率,故此模型称为对数几率回归。

2)优势

  1. 直接对分类可能性建模,无需事先假设数据分布
  2. 不仅预测类别,还可得到近似概率预测
  3. 对率函数是任意阶可导的凸函数

四、线性判别分析(LDA)

思想:给定训练样例集,设法将训练样本投影到一条直线上,使得同类样本的投影点尽可能靠近,异类样本的投影点尽可能远离。
当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类。

五、多分类学习

多分类学习的基本思路是“拆解法”,即将多分类任务拆为若干个二分类任务求解。
通常的拆分方法有三种:一对一、一对其余、多对多(纠错输出码)

六、类别不平衡问题

类别不平衡指分类任务中不同类别的训练样例数目差别很大的情况。假定正例数目较少,反例数目较多,通常有三种解决方案:
1)对反类样例欠采样
2)对正类样例过采样
3)阈值移动
以上三种方案均是基于再缩放(rescaling)的思想得到的。

阅读更多

没有更多推荐了,返回首页