【机器学习算法面试】（一）为什么逻辑回归的损失函数是交叉熵？

原创

于 2021-01-28 21:17:37 发布

· 958 阅读

·

1

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能 #python #深度学习 #算法

本文探讨了逻辑回归中为何选择交叉熵作为损失函数的原因，从极大似然估计和KL散度两个角度进行了阐述。通过极大似然估计求解模型参数，转化为最小化负对数似然函数，即二元交叉熵。同时，引入KL散度解释了交叉熵能衡量概率分布差异的特性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

目前公众号的体裁似乎限定在序列推荐，但这样并不利于广度的学习，因此接下来分享的内容并不会局限于序列推荐（例如上篇文章），会结合目前自己的学习情况，这也是为了扩大读者的范围。当前正在整理机器学习中逻辑回归的基础和面试内容，这里有一个值得思考的问题与大家分享与讨论。

本文约1k字，预计阅读5分钟。

概要

逻辑回归（logistic regression）在机器学习中是非常经典的分类方法，周志华教授的《机器学习》书中称其为对数几率回归，因为其属于对数线性模型。

在算法面试中，逻辑回归也经常被问到，常见的面试题包括：

逻辑回归推导；
逻辑回归如何实现多分类？
SVM与LR的联系与区别？
逻辑回归反向传播伪代码；

大家可以思考下能不能回答/推导出，但这次讨论的问题是：

❝
为什么逻辑回归损失函数是交叉熵？
❞

初看这个问题感觉很奇怪，但是其中的知识包含了LR的推导与理解。在我个人看来，可以从两个角度看待这个问题：

【1】从极大似然估计的角度可以推导出交叉熵；
【2】从KL散度（熵的角度）去理解；

极大似然估计

对于逻辑回归，我们一般通过极大似然估计来求解参数。

首先假设两个逻辑回归的两个条件概率：

学习时，采用极大似然估计来估计模型的参数，似然函数为：

对数似然函数（采用对数似然函数是因为上述公式的连乘操作易造成下溢）为：

对其求最大值，估计参数

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。