- 线性模型=用属性的线性组合来进行预测。
- 线性模型的优点
- 简单
- 可解释
- 易多层组合成非线性
- 线性模型处理离散属性
- 有序的–>转化为连续值
- 无序的–>转化为多维向量
- 最小二乘法=基于最小化均方误差进行模型求解
- X T X X^TX XTX不满秩时可以解出多个最优模型,此时根据偏好或者正则化求解
- 阶跃函数用于将线性模型的连续值映射成离散值。
- 对数几率函数
- 思想:用线性模型结果逼近真实标记的对数几率
- 优点
- 无须假设分布
- 可以得到概率
- 目标函数任意阶可导,可以采用一般的数值优化方法
- 参数求解:y=后验概率–>对数似然–>目标函数–>极值问题
- LDA线性判别分析
- 特点:有监督降维。对比PCA。
- 思路
- 训练:求一条直线,使得同类样本投影近,异类样本投影远。
- 预测:将样本投影到直线,寻找最近的类。
- 数学表示:类内散度矩阵 类间散度矩阵 瑞利商
- 对比PCA:适用于有标签的情况。
- 多分类问题
- OVO
- 思路:每两类组成一个分类器
- 结果:落入最多的一类
- OVR
- 思路:一个为正,其余为负。有多少类就有多少个。
- 结果:选择置信度最高的。
- MVM
- 思路:若干个类划为正,其余划为负。
- 方法:使用纠错码进行类正负划分。
- 结果:距离最近的类。
- 方法对比
- OVO数据集远小于OVR,训练块;
- OVO学习器个数远大于OVR,存储测试开销大。
- OVO
- 类别不平衡问题
- 问题描述:正负例数量不接近
- 解决思路:再缩放
- 要求:训练集是无偏采样(很难实现)
- 其他解决方法
- 欠采样:放弃多的一类样本
- 过采样:重新产生少的一类样本。往往采用插值方法。
- 阈值移动:类似再缩放。