逻辑回归灵魂拷问之(一)——小试牛刀

最新推荐文章于 2024-10-15 21:12:07 发布

starry0001

最新推荐文章于 2024-10-15 21:12:07 发布

阅读量175

点赞数

分类专栏：灵魂拷问文章标签：逻辑回归机器学习

本文链接：https://blog.csdn.net/qq_39158406/article/details/115708237

版权

灵魂拷问专栏收录该内容

2 篇文章 0 订阅

订阅专栏

逻辑回归灵魂拷问之(一)——小试牛刀

逻辑回归几乎是最常见的机器学习模型了，每个初学者来说都是必须学习的机器学习模型，简单的推导再加上优雅的模型，很容易被人所理解。值得注意的是，就是这么简单的模型，在各种应届实习或者工作面试中经常会被面试官提到。它是否真的如你想象的如此简单，有什么地方是你在学习的过程中丝毫没有注意到的，现在让我们一起深入地了解下它吧。

1、基础概念

本篇文章主要是讲解学习逻辑回归时不容易想到的问题，因此对于机器学习的公式推导啥的就不不仔细展开了。

假设背景：预测值y服从伯努利分布

激活函数： $\sigma(x)=\frac{1}{1+e^{-x}}$

表达式： $f(x)=w^T+b$ ， $y=\sigma(f(x))=\sigma(w^Tx)$

损失函数： $J(\theta)=-[\frac{1}{2m}\Sigma^m_1(y_iln(p)+(1-y_i)ln(1-p))]$

其中 $p=\sigma(f(x))$

以上是关于逻辑的回归知识的一点小小的复习，干货在后边来了。

2、逻辑回归有什么优点和缺点

优点：

1：结构简单，具有很强的解释了，可以直观地看到不同特征地重要程度

2：训练速度快，占用的计算资源少，容易部署，无论用什么语言都可以很容易地写出来

3：效果好，比较依赖特征工程，特征工程做的好的话，效果会很好

缺点：

1：结构简单，在复杂的场景下效果不好

2：很难处理数据样本不均衡的情况

3：处理非线性数据的时候，一般都需要手动特征工程

3、逻辑回归与支持向量机有什么异同

逻辑回归与支持向量机(不加核函数)作为两个最经典的线性模型，经常会被一起考察到。

相同点:

1：都可以用于二分类，经过处理后也可以用于多分类

2：都可以加正则化，

3：两者都可以引入非线性化，不过方法不一样

不同点：

相比较两者的相似之处，不同之处才是更多的。

1：LR是参数模型，SVM是非参数模型

2：两者的损失函数不同，LR采用的是对数损失函数，而SVM采用的是hinge Loss

3：SVM只考虑局部，而LR考虑的是整体。SVM只考虑support vector，而LR考虑所有的样本。

4：优化方法不一样，LR常采用梯度下降法，SVM采用的是最小序列法(SMO)

5：对于非线性的表达，LR一般需要采用人工的特征工程来实现，而SVM采用引入核函数实现。

6：SVM的预测结果是0和1，LR输出的是概率。

简评：LR和SVM都是十分优秀而简单的机器学习方法，在很多数据集上两者的表现也相差不大，但是LR更适合处理大规模的工业数据，处理速度更快，而SVM处理速度则会慢很多。

4、逻辑回归怎么进行多分类

和SVM一样，LR也不支持直接进行多分类，一般是转化为One Vs Many进行二分类，一般地步骤如下:

1：将类别1看作正样本，其他类型全部看作负样本，然后我们就可以得到样本标记类型为该类型的概率p1。

2.然后再将另外类别2看作正样本，其他类型全部看作负样本，同理得到p2。

3.以此循环，得到该待预测样本的标记类型分别为类别i时的概率pi，取pi中最大的那个概率对应的样本标记类型作为待预测样本类型。

5、逻辑回归特征之间高度相关会有影响嘛

没有影响的，如果数据中将某个特征复制一遍，那么就相当于将权重变为原来的一半，并不会影响模型的收敛。当然对模型的收敛也肯定不会有什么促进作用

6、逻辑回归为什么么经常会对特征离散化

为什么需要离散化：

在工业界中，一般不会将连续值作为特征给逻辑回归模型，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：

稀疏向量内积乘法运算速度快，计算结果方便存储，容易scalable（扩展）。
离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰。
逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合。
离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力。
特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问。

也有大佬认识模型是使用离散特征还是连续特征，其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化用线性模型，也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。通常来说，前者容易，而且可以n个人一起并行做，有成功经验；后者目前看很赞，能走多远还须拭目以待。

总结起来就是：计算简单，简化模型，增强模型的泛化能力