机器学习基石------Linear Model for Classification

最新推荐文章于 2024-03-25 09:32:24 发布

1只小包子

最新推荐文章于 2024-03-25 09:32:24 发布

阅读量338

点赞数

分类专栏：机器学习基石文章标签：机器学习基石

本文链接：https://blog.csdn.net/a940902940902/article/details/84349052

版权

机器学习基石专栏收录该内容

19 篇文章 1 订阅

订阅专栏

机器学习基石------Linear Model for Classification

Linear Model for Binary Classification

Stochastic Gradient Descent

Multiclass via Logistic Regression

Multiclass via Linear Regression

Linear Model for Binary Classification

![在这里插入图片描述](https://img-blog.csdnimg.cn/20181122185241607.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E5NDA5MDI5NDA5MDI=,size_16,color_FFFFFF,t_70) 线性分类问题： h(x)=sign(s) (s为score 即目标函数在测试样本上的得分) error=（h(x)≠y) = ysign(s)≠ 1 即 sign（ys）≠1

线性回归问题
h(x)=s
error=(s-y)² = (s-y)² * y²=(ys-1)²

logistics 回归问题
h（x）= θ（s） θ(s)= 1/1+e^-s
最大化p(y|x) 对于 y=1 p(y|x)=h(x) 对于y=-1 p(y|x)=1-h(x) 又因为对于 sigmod 函数 1-h(x) =h(-x)
所以 max h（yx) 连乘等价于 error =-ln（h(yx)）= ln(1+exp(-yx))

对于0-1 误差和ys的关系
在这里插入图片描述

在这里插入图片描述
由此可见平方误差和交叉熵误差都能够bound住0-1 误差
也就是说如果使用logistics regression或者 linear regression 求解Binary classification 问题保证 logistics regression 或者linear regression 在训练样本上的误差在较小的范围内则能保证具有较小的 0-1误差

在这里插入图片描述

对于任意的ys具有如下性质同样的对于所有ys的期望也符合这一不等式

Stochastic Gradient Descent

对于logistics regression 损失函数为 error = ∑ _n ln(1+exp(-ywx)) 每次沿着梯度下降最快的方向更新一小步所以需要求得梯度下降最快的方向即求error 对于w的导数 ![在这里插入图片描述](https://img-blog.csdnimg.cn/20181122210351195.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2E5NDA5MDI5NDA5MDI=,size_16,color_FFFFFF,t_70)

在这里插入图片描述

随机抽取几个样本来代替整体的平均如果每次都只抽取一个如果跑足够多步真实的梯度和平均梯度近似

在这里插入图片描述

在这里插入图片描述
和PLA相比都是加上y_nx_n 但是PLA是判断当前结果是否和预测结果相同如果不一致则加上y_nx_n SGD LR 则不同乘上的是一个soft更新规则当wx 分数很大同时y为正则 -ywx为一个很大的负值 sigmod函数接近0 不更新当wx很大 y为负则 -ywx为一个很大的正值 sigmod接近1 则更新力度很大

Multiclass via Logistic Regression

在这里插入图片描述

多分类问题可以转化为二分类但是存在一个问题是可能存在区域多个二分类器都判断为正或者存在某些区域所有二分类器都判断为负

在这里插入图片描述

这些可以通过软性分类不止是判断是否同时给出概率预测
在这里插入图片描述
对于每一个类别跑一个LR算法目标类别为正样本其他类别为负样本得到k个分类器

测试样本分别跑k个分类器得分最高则判别为该类别

可能存在问题：正负样本在训练的时候是不平衡的因为只有其中一个类别是正样本其他都为负样本

Multiclass via Linear Regression

在这里插入图片描述

在k个类中选取 C²_k 个两两一对作为正负样本进行训练二元分类
在这里插入图片描述
如下4类则得到6个分类器对于一个样本通过这六个分类器可以得到六个结果投票得到最终结果

在这里插入图片描述

1只小包子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石------Linear Model for Classification

机器学习基石------Linear Model for ClassificationLinear Model for Binary ClassificationStochastic Gradient DescentMulticlass via Logistic RegressionMulticlass via Linear RegressionLinear Model for Bin...
复制链接

扫一扫