机器学习(西瓜书)--第三章:线性模型

一:基本形式

二:线性回归

x是给的数值,f(x)是预测值,w,b是变量;通过选择w、b,使得均方误差最小。

对于由开头说的d个属性描述,则是多元线性回归(multivariate linear regression)。

 

三:对数几率的回归

四:线性判别分析

LDA是一种经典的线性学习方法也被称为“Fisher准则”,其基本内容为:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影尽可能接近、异类样例的投影点尽可能远离。

分别为第i类实例的集合、均值向量、协方差矩阵,将数据投影到直线上,则两类样本的中心在直线上的投影分别为,协方差分别为

为了使得同类点尽可能靠近,异类点尽可能远离我们最终得到如下目标函数:

我们定义类内散度矩阵(within-class scatter matrix)为:

类间散度矩阵(between-class scatter matrix)为:

则目标函数可以简写为:,被称为的广义瑞利商(generalized Rayleigh quotient)

由于分子分母都是w的二次项,因此目标函数的值与w的大小无关,只与其方向有关,而的方向恒为,令将目标函数等价于

再由拉格朗日乘子法可以得出

同理该结论可以推广到多分类问题中。

5.多分类学习

解决多分类问题一般使用拆解法,即将多分类任务拆分为若干个二分类任务,通常有三种拆分策略:一对一(OvO)、一对其余(OvR)、多对多(MvM)。

OvO:将N个类别两两配对,产生个二分类任务,二分类任务预测结果中出现最多的样本即为最终分类结果。

OvR:每次将一个样例作为正例,其他多作为反例,若测试结果仅有一个分类器预测为正类,则其对应的样本标记可以作为最终结果;若多个分类器预测为正类,则考虑分类器的置信度,选择置信度最大的类别作为预测结果。

MvM:每次将若干个作为正类,若干个其他作为反类,常用的有“纠错输出码“(Error Correcting Output Codes)

ECOC:分为编码过程和解码过程。其中编码是对N个类别做M次划分从而训练M个分类器,解码过程是用M个分类器对测试样本进行预测,预测结果形成一个编码,用这个编码与不同类别的编码进行比较,返回距离最小的类别。这里的距离我们可以使用欧式距离或者海明距离(两个码字的对应比特取值不同的比特书,即不同的位数)。该分类方法对分类器的错误有一定的容忍和修正能力,对于同等长度的编码,任意两个类别之间的编码距离越远,则纠错能力越强。

6:类别不平衡问题

1:对训练集反例样本进行”欠采样“(undersampling);EasyEnsemble算法利用继承学习机制;

2:对训练集正例样本进行”过采样“(oversampling);SMOTE算法通过正例进行插值产生额外正例

3:把再缩放应用到分类器预测过程中;预测结果*正负样本比例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值