机器学习（西瓜书）--第三章：线性模型

最新推荐文章于 2022-11-18 00:29:52 发布

smithllxf

最新推荐文章于 2022-11-18 00:29:52 发布

阅读量559

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/smithllxf/article/details/81211604

版权

一：基本形式

二:线性回归

x是给的数值，f(x)是预测值，w，b是变量；通过选择w、b，使得均方误差最小。

对于由开头说的d个属性描述，则是多元线性回归（multivariate linear regression）。

三:对数几率的回归

四:线性判别分析

LDA是一种经典的线性学习方法也被称为“Fisher准则”，其基本内容为：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影尽可能接近、异类样例的投影点尽可能远离。

令、、分别为第i类实例的集合、均值向量、协方差矩阵，将数据投影到直线上，则两类样本的中心在直线上的投影分别为和，协方差分别为和

为了使得同类点尽可能靠近，异类点尽可能远离我们最终得到如下目标函数：

我们定义类内散度矩阵（within-class scatter matrix）为：

类间散度矩阵（between-class scatter matrix）为：

则目标函数可以简写为：，被称为和的广义瑞利商（generalized Rayleigh quotient）

由于分子分母都是w的二次项，因此目标函数的值与w的大小无关，只与其方向有关，而的方向恒为，令将目标函数等价于

再由拉格朗日乘子法可以得出

同理该结论可以推广到多分类问题中。

5.多分类学习

解决多分类问题一般使用拆解法，即将多分类任务拆分为若干个二分类任务，通常有三种拆分策略：一对一（OvO）、一对其余（OvR）、多对多（MvM）。

OvO：将N个类别两两配对，产生个二分类任务，二分类任务预测结果中出现最多的样本即为最终分类结果。

OvR：每次将一个样例作为正例，其他多作为反例，若测试结果仅有一个分类器预测为正类，则其对应的样本标记可以作为最终结果；若多个分类器预测为正类，则考虑分类器的置信度，选择置信度最大的类别作为预测结果。

MvM：每次将若干个作为正类，若干个其他作为反类，常用的有“纠错输出码“（Error Correcting Output Codes）

ECOC：分为编码过程和解码过程。其中编码是对N个类别做M次划分从而训练M个分类器，解码过程是用M个分类器对测试样本进行预测，预测结果形成一个编码，用这个编码与不同类别的编码进行比较，返回距离最小的类别。这里的距离我们可以使用欧式距离或者海明距离（两个码字的对应比特取值不同的比特书，即不同的位数）。该分类方法对分类器的错误有一定的容忍和修正能力，对于同等长度的编码，任意两个类别之间的编码距离越远，则纠错能力越强。

6:类别不平衡问题

1:对训练集反例样本进行”欠采样“（undersampling）；EasyEnsemble算法利用继承学习机制；

2:对训练集正例样本进行”过采样“（oversampling）；SMOTE算法通过正例进行插值产生额外正例

3:把再缩放应用到分类器预测过程中；预测结果*正负样本比例

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。