线性回归和逻辑斯蒂回归 - 面试篇

7 篇文章 5 订阅
6 篇文章 3 订阅

(面试不需要每个知识点你都会,但你简历上写的几个,最好钻研透)

线性回归

线性回归是分析因变量与自变量(通常有多个)之间的关系,这种关系是线性的,并且因变量为连续值(离散的为分类)。
例如,自变量为房子面积的大小,距离市中心的距离,卧室的个数等,因变量为房子的价格。

模型的基本思想:用梯度下降法对最小二乘法形式的误差函数进行优化

(只说这些肯定不够,糊弄不了面试官,下面才是重点)

问: 用极大似然估计最小二乘?

最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
“模型已定,参数未知”。利用试验结果得到某个参数值能够使样本出现的概率为最大
中心极限定理指的是给定一个任意分布的总体。我每次从这些总体中随机抽取 n 个抽样,一共抽 m 次。 然后把这 m 组抽样分别求出平均值。 这些平均值的分布接近正态分布。
图1
图2

问:线性回归损失函数?
图片3
问:既然你上面加了正则化,那么说一下L1, L2正则吧?
使用正则化,可以降低模型的复杂度。
加上L1正则化给了模型的拉普拉斯先验,加上L2正则化给了模型的高斯先验。
从参数的角度来看,L1得到稀疏解,去掉一部分特征降低模型复杂度。L1正则化是L1范数而来,投到坐标图里面,是棱型的,最优解在坐标轴上取到,所以某些部分的特征的系数就为0。
L2得到较小的参数,如果参数很大,样本稍微变动一点,值就有很大偏差。相当于降低每个特征的权重。
更细致的可以看我这篇博客:防止过拟合的方法,及dropout原理 - 面试篇

问:线性回归的优缺点?
实现简单,但不能拟合非线性数据


逻辑斯蒂回归(LR)

概念:分类/事件发生的概率

问:logistic函数?
sigmoid
问:logistic参数估计?(参数 θ \theta θ 怎么变化/调整)
5
6
7
问:对数几率模型?/ LR和线性回归的关系?
8
问:LR的损失函数怎么算? 手推 (重点)
9
把上面那个参数估计会了,这个很简单。[题外话:有次面百度推荐部门实习,C++,机器学习都没太会,面试官还比较好,只是说让我下次来先复习下](不知道为什么我面试不会,之前一直没有正视数学,不敢,以为很难,其实只有一点一点深入才能够弄懂,懂了后就简单了。)
或者:
10
问:为什么可以用似然函数?
因为目标是要让预测为正的的概率最大,且预测为负的概率也最大,即每一个样本预测都要得到最大的概率,将所有的样本预测后的概率进行相乘都最大,这就能到似然函数了。
最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
“模型已定,参数未知”。利用试验结果得到某个参数值能够使样本出现的概率为最大

问:LR优缺点?
优点:实现简单,分类时计算量小、速度快、存储资源要求低
缺点:容易过拟合、一般准确度不高,原始的LR模型只能处理2分类问题


以上为面试过程碰到的,加上自己想的,汇总而得。
参考资料:小象学院
有的答案网上找的。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值