数据挖掘面试题之逻辑回归lr

最新推荐文章于 2024-06-22 08:50:32 发布

语亦情非

最新推荐文章于 2024-06-22 08:50:32 发布

阅读量2.1k

点赞数 1

分类专栏：数据挖掘面试机器学习文章标签：机器学习算法数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a1272899331/article/details/96448029

版权

数据挖掘面试同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

25 篇文章 1 订阅

订阅专栏

逻辑回归面试题

1.逻辑斯蒂回归推导

逻辑回归假设数据服从伯努利分布（0-1）,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。

2.简述一下线性回归

3.为什么逻辑斯特回归中使用最大似然函数求得的参数是最优可能的参数值？

4.逻辑回归是线性模型吗？

5.逻辑回归做分类的样本应该满足什么分布？

6.逻辑回归输出的值是0到1之间的值，这个值是真实的概率吗？

7.逻辑回归与线性回归的联系和区别？

8.逻辑回归会发生过拟合吗？如何解决？

9.什么是特征离散化和特征交叉？

10.逻辑斯特回归为什么要对特征进行离散化？

11.在逻辑回归模型中，为什么常常要做特征组合（特征交叉）？

12.逻辑回归在训练的过程当中，如果有很多的特征高度相关或者说有一个特征重复了100遍，会造成怎样的影响？

13.为什么逻辑回归在训练的过程当中将高度相关的特征去掉？

1、去掉高度相关的特征会让模型的可解释性更好

2、可以大大提高训练的速度。如果模型当中有很多特征高度相关的话，就算损失函数本身收敛了，但实际上参数是没有收敛的，这样会拉低训练的速度。其次是特征多了，本身就会增大训练的时间。

14.逻辑回归最优化过程中如何避免局部极小值？

15.线性回归的损失函数里面为什么常用平方形式, 而不是1次方，3次方，4次方或者绝对值？

16.逻辑回归特征系数的绝对值可以认为是特征的重要性吗？

17.如何使用逻辑回归实现多分类？

18.逻辑回归的损失函数为什么要使用极大似然函数作为损失函数？

在逻辑回归这个模型下，对数损失函数的训练求解参数的速度是比较快的。至于原因大家可以求出这个式子的梯度更新

为什么不选平方损失函数的呢？其一是因为如果你使用平方损失函数，你会发现梯度更新的速度和sigmod函数本身的梯度是很相关的。sigmod函数在它在定义域内的梯度都不大于0.25。这样训练会非常的慢。

19. 逻辑回归参数归一化是否对结果有什么影响吗？

20.逻辑回归有哪些优缺点

1、形式简单，模型的可解释性非常好。从特征的权重可以看到不同的特征对最后结果的影响，某个特征的权重值比较高，那么这个特征最后对结果的影响会比较大。

2、模型效果不错。在工程上是可以接受的（作为baseline)，如果特征工程做的好，效果不会太差，并且特征工程可以大家并行开发，大大加快开发的速度。

3、训练速度较快。分类的时候，计算量仅仅只和特征的数目相关。并且逻辑回归的分布式优化sgd发展比较成熟，训练的速度可以通过堆机器进一步提高，这样我们可以在短时间内迭代好几个版本的模型。

4、资源占用小,尤其是内存。因为只需要存储各个维度的特征值，。

5、方便输出结果调整。逻辑回归可以很方便的得到最后的分类结果，因为输出的是每个样本的概率分数，我们可以很容易的对这些概率分数进行cutoff，也就是划分阈值(大于某个阈值的是一类，小于某个阈值的是一类)。

逻辑回归的缺点总结

1、准确率并不是很高。因为形式非常的简单(非常类似线性模型)，很难去拟合数据的真实分布。

2、很难处理数据不平衡的问题。举个例子：如果我们对于一个正负样本非常不平衡的问题比如正负样本比 10000:1.我们把所有样本都预测为正也能使损失函数的值比较小。但是作为一个分类器，它对正负样本的区分能力不会很好。

3、处理非线性数据较麻烦。逻辑回归在不引入其他方法的情况下，只能处理线性可分的数据，或者进一步说，处理二分类的问题。

4、逻辑回归本身无法筛选特征。有时候，我们会用gbdt来筛选特征，然后再上逻辑回归。

21.逻辑回归有什么特有的防止过拟合的方式？

1. 增加样本量，这是万能的方法，适用任何模型。----------------数据层面：

2. 如果数据稀疏，使用L1正则，其他情况，用L2要好，可自己尝试。---------算法层面-正则化：

3. 通过特征选择，剔除一些不重要的特征，从而降低模型复杂度。------------数据层面：

4. 如果还过拟合，那就看看是否使用了过度复杂的特征构造工程，比如，某两个特征相乘/除/加等方式构造的特征，不要这样做了，保持原特征

5. 检查业务逻辑，判断特征有效性，是否在用结果预测结果等。------------业务层面

6.(补充)最重要的，逻辑回归特有的防止过拟合方法:进行离散化处理，所有特征都离散化。

23.向量化Vectorization（思考：LR的分布式（并行化）实现）

约定训练数据的矩阵形式如下，x的每一行为一条训练样本，而每一列为不同的特称取值：

θ更新过程可以改为：

参考：逻辑回归面试总结 https://blog.csdn.net/happy5205205/article/details/88659936

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘面试题之逻辑回归lr

逻辑回归面试题1.逻辑斯蒂回归推导逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法，运用梯度下降来求解参数，来达到将数据二分类的目的。2.简述一下线性回归3.为什么逻辑斯特回归中使用最大似然函数求得的参数是最优可能的参数值？4.逻辑回归是线性模型吗？5.逻辑回归做分类的样本应该满足什么分布？6.逻辑回归输出的值是0到1之间的值，这个值是真实的概率吗？7.逻辑...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。