- 基本形式
-
一元线性回归
那么,如果确定 和 b 呢?
利用 度量指标均方误差(MSE)或RMSE,使均方误差最小化(最小二乘法)
先考虑一种最简单的情形,输入样本的属性只有一个(即只是一维):
可以得到解:
-
多元线性回归
现在考虑更一般的情形,样本属性有d个(即d维):
那么问题来了,如果不满秩呢?可以解得多个解,要怎么处理呢?
-
对数几率回归
之前都是处理回归任务,那么碰到分类任务怎么办?(以二分类为例)
回归模型得到的预测值是一个实数,而二分类的产生的预测值应该是0和1,那我们就应该想办法将回归模型的预测值转换成0/1值
之后可以通过牛顿迭代进行处理用来估计参数。
-
线性判别分析(LDA)
思想:给定训练集样本,将样本投影到一条直线上,使得同类样本的投影点尽可能接近,异类样本的投影点尽可能远离
PS:由于笔者这部分还没有很看懂,所以就先不写啦,等后面花时间再研读研读这一小节再补上!
-
多分类学习
基本思路:“拆解法”,将多分类任务分解为若干个二分类任务求解;每个二分类任务训练一个分类器,之后将这些分类结果进行集成得到最终的预测结果
三种方法:OVO、OVR、MVM
OVO (one VS one):将N个类别两两配对,组成N(N-1)/2个二分类任务,最终结果通过投票产生
OVR (one VS rest):每次将一个类的样本作为正例,所有其他类的样本作为反例来训练N个分类器,最终结果通过投票产生
MVM(many VS many):将若干个类作为正类,若干个其他类作为反类,OVO和OVR是它的特例
-
类别不平衡问题
有一说一,之前的分类方法都默认了一个基本的假设:不同类别的训练样例数目相当
如果碰到差别比较大的情况呢?该怎么处理呢?
- 欠采样(undersampling):对反例样本进行处理,即去除一些反例使正反例样本数量相当;通过EasyEnsemble算法利用集成学习机制,将反例分为若干个集合供不同学习器使用,这样对每个学习器来看都进行了欠采样,不会丢失重要的信息
- 过采样(oversampling):对正例样本进行处理,即增加适当的正例样本使正反例样本数量相当;不能简单地对初始正例样本进行重复采样(否则会导致过拟合),可以通过SMOTE算法对正例样本进行插值来增加额外的正例样本
- 阈值移动(threshold-moving):直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,改变了阈值(不再是0.5),即将式(3.48)嵌入到式子中进行决策
还有很多不足,还需多多补充!截图公式来自周志华老师的西瓜书!