Logistic回归

最新推荐文章于 2023-12-04 18:22:15 发布

小刘要努力丫！

最新推荐文章于 2023-12-04 18:22:15 发布

阅读量598

点赞数 1

文章标签：大数据

本文链接：https://blog.csdn.net/m0_51692331/article/details/125749516

版权

函数集的分类问题叫做 Logistic Regression（逻辑回归）。

一、Logistic Regression与Linear Regression的对比：

Logistic Regression的output结果在0到1之间，而Linear Regression的output可以为任意值。

损失函数的算法不同，线性回归的损失函数为均方误差，逻辑回归的损失函数是f(x^n)和y^n的交叉熵。如果把function的输出和target（算出的function和真实的y^n）都看作是两个伯努利分布，所做的事情就是希望这两个分布越接近越好。

图中蓝色下划线实际上代表的是两个伯努利分布（0-1分布，两点分布）的 cross entropy（交叉熵）

假设有两个分布 p 和 q，如图中蓝色方框所示，这两个分布之间交叉熵的计算方式就是 H(p,q)H(p,q)；交叉熵代表的含义是这两个分布有多接近，如果两个分布是一模一样的话，那计算出的交叉熵就是熵。

将求得两个子项的偏微分带入，化简得到结果。

现在 wi 的更新取决于学习率 η ，x^n以及上图的紫色划线部分；紫色下划线部分直观上看就是真正的目标 y^n与我们的function差距有多大。

二、判别模型vs生成模型

逻辑回归的方法称为Discriminative（判别）方法；上一篇中用高斯来描述后验概率，称为 Generative（生成）方法。它们的函数集都是一样的：

如果是逻辑回归，就可以直接用梯度下降法找出w和b；如果是概率生成模型，像上篇那样求出 μ1,μ2 ，协方差矩阵的逆，然后就能算出w和b。

用逻辑回归和概率生成模型找出来的w和b是不一样的。

举一个判别模型和生成模型的例子：

上图的训练集有13组数据，类别1里面两个特征都是1，剩下的(1, 0), (0, 1), (0, 0) 都认为是类别2；然后给一个测试数据(1, 1)，它是哪个类别呢？人类来判断的话，不出意外基本都认为是类别1。下面看一下朴素贝叶斯分类器（Naive Bayes）会有什么样的结果。

计算出P(C1∣x)的结果是小于0.5的，即对于朴素贝叶斯分类器来说，测试数据 (1, 1)是属于类别2的，这和直观上的判断是相反的。其实这是合理，实际上训练集的数据量太小，但是对于 (1, 1)可能属于类别2这件事情，朴素贝叶斯分类器是有假设这种情况存在的。所以结果和人类直观判断的结果不太一样。

因此，判别方法不一定比生成方法好，在训练集数据量很小的时候，由于判别方法没有做任何假设，就是看着训练集来计算，因此可能会导致判断失误，随着训练集数量越来越大的时候，error才会减小。而生成方法会自己脑补，受到数据量的影响比较小。

三、多类别分类

假设有3个类别，每个都有自己的weight和bias

把z1,z2,z3 放到一个叫做Softmax的方程中，Softmax做的事情就是它们进行指数化，将指数化后的结果相加，再分别用指数化后的结果除以相加的结果。原本z1,z2,z3可以是任何值，但做完Softmax之后输出会被限制住，都介于0到1之间，并且和是1。

如果定义类别1是y1,y1^, 类别2是y2,y2^，类别3是y3,y3^，这样会人为造成类别1 和类型2有一定的关系这种问题。但可以将 y^定义为矩阵，这样就避免了。而且为了计算交叉熵，y^也需要是个概率分布才可以。

四、逻辑回归的限制

这里的逻辑回归所能做的分界线就是一条直线，没有办法将红蓝色用一条直线分开。

我们可以用特征转换的方法解决这个问题。

特征转换的方式很多，举例类别1转化为某个点到 (0,0)(0,0) 点的距离，类别2转化为某个点到 (1,1)(1,1) 点的距离。然后问题就转化右图，此时就可以处理了。但是实际中并不是总能轻易的找到好的特征转换的方法。

一个逻辑回归的输入可以来源于其他逻辑回归的输出，这个逻辑回归的输出也可以是其他逻辑回归的输入。把每个逻辑回归称为一个 Neuron，把这些神经元连接起来的网络，就叫做 Neural Network。

关注