机器学习4——线性模型(2)

本文深入探讨了机器学习中的线性模型,包括线性判别分析(LDA),如何最大化线性判别的条件,以及解决类别不平衡问题的策略。此外,还介绍了多分类学习的思路,并提出了线性模型课后的三道习题,涉及偏置项的影响、非凸优化以及对率回归的编程实践。
摘要由CSDN通过智能技术生成

3. 线性模型(2)

3.1 线性判别分析

  • 概念
- 线性判别分析 (Linear Discriminant Analysis , 简称 LDA)。
- 是一种经典的线性学习方法。
- 最早由 Fisher 提出,亦称 "Fisher" 判别分析。
  • LDA 的思想
1. 给定训练样例集
2. 设法将样例投影到一条直线上
3. 使得同类样例的投影点尽可能接近。
4. 异类样例的投影点尽可能远离。

- 在对新样本进行分类时,将其投影
- 根据投影的点的位置确定新的样本类别。

在这里插入图片描述

  • 怎样让同类样例的投影点尽可能近?

分析

已知:
给定数据集 D = {
   (x1,y1), ..., (xm,ym)}, yi ∈ {
   0, 1}。这是一个二分类问题。

令:
Xk, Uk, ∑K 分别表示第 k ∈ {
   0, 1}类示例的,
集合,均值向量,协方差矩阵

操作:
将数据投影到直线 W 上
直线 w 是已知训练好的直线。

结论:
一、两类样本的中心在直线上的投影分别为:
0类:W^T*U0
1类:W^T*U1
二、两类样本的协方差分别为:
0类:W^T*0W
1类:W^T*1W

公式

在这里插入图片描述

结论

1. 欲使同类样例的投影点尽可能接近
即 W^T*0W+W^T*1W 尽可能小

2. 欲使异类样例的投影点尽可能远离
||W^T*U0-W^T*U1|| 尽可能大

  • 最优线性(最大化线性判别分析的条件)

使 J 值最大

在这里插入图片描述

类内散度矩阵
在这里插入图片描述

类间散度矩阵

在这里插入图片描述
重写 J 值

在这里插入图片描述
确定 w

在这里插入图片描述

3.2 多分类学习

  • 思路
拆解法
即将多分类任务拆分为若干个二分类任务求解。

具体来讲就是:
先对问题进行拆分,然后为拆分出的每个二分类任务训练一个分类器。
  • 拆分策略
1. 一对一,One vs One, OvO
- 两两配对组成一个新样本,一个作为正例,一个作为反例。
- 新样本将同时提交给所有的分类器。
- 把预测结果最多的作为最终的分类结果。

2. 一对其余,One vs Rest, OvR
- 每次将一个类作为正例,其余类作为反例。
- 若有一个分类器预测为正例,则对应类标记为最终结果。

3. 多对多,Many vs Many, MvM
- 将若干个类作为正类,若干个作为反类。
- 但正,反类构造必须有特殊的设计。
- 有一种常用的 MvM 技术:纠错输出码,简称 ECOC

在这里插入图片描述

3.3 类别不平衡问题

  • 问题导入
- 前面介绍的分类学习方法都有一个共同的基本假设,即不同类别的训练样例数目相当.
- 如果不同类别的训练样例数目稍有差别,通常影响不大,
- 但若差别很大,则会对学习过程造成困扰.
- 例如有 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

姜满月

鼓励,鼓励,更加努力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值