【机器学习西瓜书学习笔记——线性模型】

未来、梦想

已于 2024-08-07 15:30:40 修改

阅读量340

点赞数 5

文章标签：机器学习学习笔记

于 2024-07-28 12:38:22 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_51148715/article/details/140749199

版权

机器学习西瓜书学习笔记【第三章】

第三章线性模型

第三章线性模型

线性回归

本质：试图学到一个线性模型尽可能准确地预测新样本的输出值。

属性值的处理

连续值——根据具体的情形作相应的预处理（归一化）

离散值

若属性值之间存在“序关系”，则可以将其转化为连续值
若属性值之间不存在“序关系”，则通常将其转化为向量的形式

处理过程

①当输入属性只有一个的时候——最小二乘法

②当输入属性有多个的时候——矩阵法

对数几率回归

关键：将预测值投影到0-1之间，从而将线性回归问题转化为二分类问题。

本质：最大似然估计值

线性判别分析

基本思想：将训练样本投影到一条直线上，使得同类的样例尽可能近，不同类的样例尽可能远。（让各类的协方差之和尽可能小，不同类之间中心的距离尽可能大）

两个散度矩阵

类内散度矩阵——越小越好

类间散度矩阵——越大越好

多分类学习

策略：拆分（即将多分类问题拆解为多个二分类问题，训练出多个二分类学习器，最后将多个分类结果进行集成得出结论）

一对一（OvO）

给定数据集D，假定其中有N个真实类别，将这N个类别进行两两配对（一个正类/一个反类），从而产生N（N-1）/2个二分类学习器，在测试阶段，将新样本放入所有的二分类学习器中测试，得出N（N-1）个结果，最终通过投票产生最终的分类结果。

一对其余（OvR）

给定数据集D，假定其中有N个真实类别，每次取出一个类作为正类，剩余的所有类别作为一个新的反类，从而产生N个二分类学习器，在测试阶段，得出N个结果，若仅有一个学习器预测为正类，则对应的类标作为最终分类结果。

多对多（MvM）

给定数据集D，假定其中有N个真实类别，每次取若干个类作为正类，若干个类作为反类（通过ECOC码给出，编码），若进行了M次划分，则生成了M个二分类学习器，在测试阶段（解码），得出M个结果组成一个新的码，最终通过计算海明/欧式距离选择距离最小的类别作为最终分类结果。

类别不平衡问题

分类问题中不同类别的训练样本相差悬殊的情况。

处理方法

①在训练样本较多的类别中进行“欠采样”

②在训练样本较少的类别中进行“过采样”

③直接基于原数据集进行学习，对预测值进行“再缩放”处理。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。