西瓜书第三章 线性模型

  • 基本形式

  • 一元线性回归

那么,如果确定 \omega 和 b 呢?

利用 度量指标均方误差(MSE)或RMSE,使均方误差最小化(最小二乘法)

先考虑一种最简单的情形,输入样本的属性只有一个(即只是一维):

 

 

 可以得到解:

                                       

                                        

  • 多元线性回归

现在考虑更一般的情形,样本属性有d个(即d维):

那么问题来了,如果不满秩呢?可以解得多个解,要怎么处理呢?

  •  对数几率回归

之前都是处理回归任务,那么碰到分类任务怎么办?(以二分类为例)

回归模型得到的预测值是一个实数,而二分类的产生的预测值应该是0和1,那我们就应该想办法将回归模型的预测值转换成0/1值

 

 之后可以通过牛顿迭代进行处理用来估计参数。

  •   线性判别分析(LDA)

思想:给定训练集样本,将样本投影到一条直线上,使得同类样本的投影点尽可能接近,异类样本的投影点尽可能远离

PS:由于笔者这部分还没有很看懂,所以就先不写啦,等后面花时间再研读研读这一小节再补上!

  • 多分类学习

基本思路:“拆解法”,将多分类任务分解为若干个二分类任务求解;每个二分类任务训练一个分类器,之后将这些分类结果进行集成得到最终的预测结果

 三种方法:OVO、OVR、MVM

OVO (one VS one):将N个类别两两配对,组成N(N-1)/2个二分类任务,最终结果通过投票产生

OVR (one VS rest):每次将一个类的样本作为正例,所有其他类的样本作为反例来训练N个分类器,最终结果通过投票产生

MVM(many VS many):将若干个类作为正类,若干个其他类作为反类,OVO和OVR是它的特例

  • 类别不平衡问题

 

 有一说一,之前的分类方法都默认了一个基本的假设:不同类别的训练样例数目相当

如果碰到差别比较大的情况呢?该怎么处理呢?

  1. 欠采样(undersampling):对反例样本进行处理,即去除一些反例使正反例样本数量相当;通过EasyEnsemble算法利用集成学习机制,将反例分为若干个集合供不同学习器使用,这样对每个学习器来看都进行了欠采样,不会丢失重要的信息
  2. 过采样(oversampling):对正例样本进行处理,即增加适当的正例样本使正反例样本数量相当;不能简单地对初始正例样本进行重复采样(否则会导致过拟合),可以通过SMOTE算法对正例样本进行插值来增加额外的正例样本
  3. 阈值移动(threshold-moving):直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,改变了阈值(不再是0.5),即将式(3.48)嵌入到式子中进行决策

还有很多不足,还需多多补充!截图公式来自周志华老师的西瓜书!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值