机器学习中的数学(2):信息熵与损失函数,致敬Shannon神
在众多的机器学习和深度算法中,我们见到许多度量模型效果的损失函数,在回归任务中常见的是均方误差函数,在分类任务中,交叉信息熵则使用很频繁,为什么呢?本次文章将带你领略香农信息论的魔力。
本期导读:
- 香农与信息论
- 信息熵
- 相对熵与交叉熵
- 均方误差与交叉熵对比
- 多目标分类
- 最小化交叉熵与最大化似然函数
申明
本文原理解释及公式推导部分均由LSayhi完成,允许部分或全部转载,但请注明出处;详细数据及代码可在github查阅。
GitHub:https://github.com/LSayhi/book-paper-note
微信公众号:AI有点可ai(文末附二维码,感谢您的关注)
CSDN博客:https://blog.csdn.net/LSayhi
一、香农与信息论
信息论是研究信息及其传输的一般规律的学科,运用数学和其他相关方法研究信息的性质、计量以及获得、传输、存储、处理和交换等。香农被称为是“信息论之父”,通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《A Mathematical Theory of Communication》作为现代信息论研究的开端,在该文中,香农给出了信息熵的定义,从此信息量的度量有了更精确的数学描述,而不再是以“多”或“少”来衡量,信息论中的很多概念都有跨学科的应用,不只在通信领域,在编码学、密码学、数据压缩、检测与估计理论中就广泛地运用了信息论的相关概念,机器学习和深度学习也涉及到许多信息论的知识,下图是香农半神。