机器学习面试题——逻辑回归

最新推荐文章于 2024-06-23 09:51:01 发布

黑桃5200

最新推荐文章于 2024-06-23 09:51:01 发布

阅读量1.2k

点赞数 1

分类专栏：面试机器学习算法机器学习一小步文章标签：面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Heitao5200/article/details/84876521

版权

机器学习算法同时被 3 个专栏收录

38 篇文章 11 订阅

订阅专栏

机器学习一小步

17 篇文章 0 订阅

订阅专栏

16 篇文章 3 订阅

订阅专栏

Q1:逻辑回归在训练的过程当中，如果有很多的特征高度相关或者说有一个特征重复了很多遍，会造成怎样的影响

如果在损失函数最终收敛的情况下，其实就算有很多特征高度相关也不会影响分类器的效果。但是对特征本身来说的话，假设只有一个特征，在不考虑采样的情况下，你现在将它重复 N 遍。训练以后完以后，数据还是这么多，但是这个特征本身重复了 N 遍，实质上将原来的特征分成了 N 份，每一个特征都是原来特征权重值的百分之一。

Q2:为什么还是会在训练的过程当中将高度相关的特征去掉

去掉高度相关的特征会让模型的可解释性更好；
可以大大提高训练的速度。

Q3:逻辑回归的优缺点

优点：
- 形式简单，模型的可解释性非常好。从特征的权重可以看到不同的特征对最后结果的影响，某个特征的权重值比较高，那么这个特征最后对结果的影响会比较大。
- 模型效果不错。在工程上是可以接受的（作为 baseline），如果特征工程做的好，效果不会太差，并且特征工程可以并行开发，大大加快开发的速度。
- 训练速度较快。分类的时候，计算量仅仅只和特征的数目相关。并且逻辑回归的分布式优化 SGD 发展比较成熟。
- 方便调整输出结果，通过调整阈值的方式。
缺点：
- 准确率欠佳。因为形式非常的简单，而现实中的数据非常复杂，因此，很难达到很高的准确性。
- 很难处理数据不平衡的问题。举个例子：如果我们对于一个正负样本非常不平衡的问题比如正负样本比 10000:1。我们把所有样本都预测为正也能使损失函数的值比较小。但是作为一个分类器，它对正负样本的区分能力不会很好。
- 无法自动的进行特征筛选。
- 只能处理二分类问题。

Q4:简单介绍一下逻辑回归算法
逻辑回归是在数据服从伯努利分布的假设下，通过极大似然的方法，运用梯度下降法来求解参数，从而达到将数据二分类的目的

Q5:机器学习中的损失函数

log对数损失函数（逻辑回归）
平方损失函数（最小二乘法, Ordinary Least Squares ）
指数损失函数（Adaboost）
Hinge损失函数（SVM）
0-1损失函数
绝对值损失函数

Q6:给你一个有1000列和1百万行的训练数据集，这个数据集是基于分类问题的。经理要求你来降低该数据集的维度以减少模型计算时间，但你的机器内存有限。你会怎么做？（你可以自由做各种实际操作假设。）
你的面试官应该非常了解很难在有限的内存上处理高维的数据。以下是你可以使用的处理方法：

1.由于我们的RAM很小，首先要关闭机器上正在运行的其他程序，包括网页浏览器等，以确保大部分内存可以使用。

2.我们可以随机采样数据集。这意味着，我们可以创建一个较小的数据集，比如有1000个变量和30万行，然后做计算。

3.为了降低维度，我们可以把数值变量和分类变量分开，同时删掉相关联的变量。对于数值变量，我们将使用相关性分析；对于分类变量，我们可以用卡方检验。

4.另外，我们还可以使用PCA（主成分分析），并挑选可以解释在数据集中有最大偏差的成分。

5.利用在线学习算法，如VowpalWabbit（在Python中可用）是一个不错的选择。

6.利用Stochastic GradientDescent（随机梯度下降法）建立线性模型也很有帮助。

7.我们也可以用我们对业务的理解来估计各预测变量对响应变量的影响的大小。但是，这是一个主观的方法，如果没有找出有用的预测变量可能会导致信息的显著丢失。
　　
Q7:给你一个数据集，这个数据集有缺失值，且这些缺失值分布在离中值有1个标准偏差的范围内。百分之多少的数据不会受到影响？为什么？
　　约有32%的数据将不受缺失值的影响。因为，由于数据分布在中位数附近，让我们先假设这是一个正态分布。我们知道，在一个正态分布中，约有68%的数据位于跟平均数（或众数、中位数）1个标准差范围内，那么剩下的约32%的数据是不受影响的。因此，约有32%的数据将不受缺失值的影响。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

黑桃5200 CSDN认证博客专家 CSDN认证企业博客

码龄7年

166: 原创

4万+: 周排名

157万+: 总排名

22万+: 访问

: 等级

3534: 积分

102: 粉丝

133: 获赞

22: 评论

626: 收藏

私信

关注

热门文章

分类专栏

数据库 5篇
数据结构与算法 8篇
数组 1篇
Python 72篇
Linux 3篇
Hadoop 8篇
Mysql 6篇
java 3篇
spark 5篇
大数据 6篇
Hive 1篇
剑指offer 3篇
剑指 offer 14篇
机器学习算法 38篇
达观杯 1篇
1
机器学习一小步 17篇
Leetcode 56篇
面试 16篇
Tensorflow 6篇
深度学习 13篇
NLP 3篇
SVM 1篇
自我增值 1篇
Pytorch 8篇

最新评论

spark web UI端口 4040,18080， 8080页面访问不了
卡丘. 钦爱: 大佬，我做到最后一步了，但是报错：spark-env.sh:行71: 语法错误: 未预期的文件结尾，我的apark-env.sh只有这两行是我加上去的，其他的没有动 [code=plain] source /etc/profile export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://20210322045-master:9000/history [/code]
Pandas——Matplotlib绘制折线图
cbdyybyz: 太棒了，就想找一个标准制图的例子，写的很全面，赞
数据结构与算法之霍夫曼树+线索二叉树
fuel030: 请问哈哈夫曼树用二叉链表存储是只存叶结点咩？
损失函数正则化方法
福芙芙_growing: 1/2是为了好求导，平方求导后乘上系数1/2刚好为1
【机器学习面试题】——线性回归+逻辑回归
·Barton·: 逻辑回归损失函数那个应该是负号吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。