西瓜+南瓜 task2:线性回归

线性模型

基本形式

在这里插入图片描述
常见线性函数 y = wx+b,比如历史数据的每日销售来预测某一天,某一个季度,某一年的销售情况,好做应对措施。

w(i)在预测中扮演重要角色,可以看出每个属性对y值的影响程度,w值越大,权重越高,当然正负亦可。

线性回归

在这里插入图片描述
线性模型,其实是连续型的,想要做分类,可以用“阈值”离散化,这样就可以继续使用了。

有这样一个数据集D,且是离散,存在“序”关系,比如说高、中、低,三种属性,将其变成为 {1.0,0.5,0.0};

如果不是序关系,有K个属性,可转为K维向量,比如"西瓜" “南瓜” "黄瓜"可转化为 (0,0,1,) (0, 1,0),(1,0,0)
线性
w和b 如何确定,就得看f(x)和y之间的差别(均方误差最小)

在这里插入图片描述
均方误差最小化方法一般用“最小二乘法”,找到一条直线,让样本到直线上的欧氏距离之和min,这个实用性很高,文本计算也会用到这种方法,一定要记住。

在这里插入图片描述
除了简单的一元回归,还有多元回归,这种在实际业务场景中使用更为频繁。

在这里插入图片描述
对数线性回归:(一种非线性函数音声)
在这里插入图片描述
在这里插入图片描述

对数几率回归

在这里插入图片描述

看Z=w^Tx+b作为一个分割线,
大于Z=w^Tx+b的判定为类别0,
小于Z=w^Tx+b的判定为类别1。

分段函数数学性质不太好,既不连续也不可微。一般做优化任务,目标函数最好是连续可微的。所以就用到了对数几率函数。

其实,LR 模型就是在拟合Z=w^Tx+b这条直线,使得这条直线尽可能地将原始数据中的两个类别正确的划分开。

对数几率回归虽然是回归,但是却是一种分类学习方法,不需要假设数据分布就可以把类别和近似概率预测,且它的任意阶求导后都是凸函数,可求最优解。

线性判别分析(LDA)

在这里插入图片描述
经典的监督维数技术(比如人脸识别,舰艇识别等图形图像识别领域中广泛被应用),若W是一个投影矩阵,LDA 是将样本投影到N-1维空间,属性数降低,这样就达到了降维目的。

原始数据一般都会超过二维,投影后大多不会是直线,而是一个低维的超平面。

主成分分析(PCA)也是降维,同样是降维,两者区别在哪儿呢?

1 LDA有监督,PCA无监督;
2 LDA降维最多降到k-1的维数,而PCA无限制。
3 LDA可降维,可分类。

部分内容来源于:https://blog.csdn.net/ruthywei/article/details/83045288

多分类学习

多分类思路:拆解成若干个二分类
一般: 一对一、一对其余、多对多

eg:N个类别两两配对,就有N(N-1)/2个二分类
在这里插入图片描述
OVO:将预测最多的类别作为最终分类结果,比如左边的C3 预测出来有3个。
OVR:将唯一一个正类标记为最终分类结果。

如果数据类别很多,OVR 比OVO更耗时耗力,类别较少,OVR更好,它的每个分类器都被使用训练样例,而OVO每个分类都仅用了2类。

类别不平衡问题

分类任务中不同类别的训练阳历数目差别很大,比如有998个反例,仅有2个正例。

在这里插入图片描述

如果m+和m- 数目相等则y/(y-1) >1,预测为正例。

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值