对数几率回归算法的机器学习三要素:
- 1.模型:线性模型,输出值的范国为(0,1],近似阶跃的单调可微函数
- 2. 策略:极大似然估计,信息论
- 3.算法:梯度下降,牛顿法
1、算法原理
在线性模型的基础上套一个映射函数来实现分类功能
部分文献也称作逻辑回归(是logistic的音译,与原意有较大出入),虽然名字中含有回归,但其实是一种分类算法。找一个单调可微函数将分类任务中的真实标记与线性回归模型的预测值联系起来,是一种广义线性回归。
对数几率函数取值是在[0,1]之间,并非逻辑性的“非0即1”
选用这个“替代函数”的好处:
- 无需事先假设数据分布
- 可得到 “类别”的近似概率预测
- 可直接应用现有数值优化算法求取最优解
2、损失函数的极大似然估计推导
由于此函数是非凸函数,故偏导数等于零并不能等价于极值点,故不能用最小二乘法进行求解
3、损失函数的信息论推导
(1)信息论(一门现代化学科)
以概率论、随机过程为基本研究工具,研究广义通信系统的整个过程。常见的应用有无损数据压缩(如ZIP文件)、有损数据压缩(如MP3和JPEG)等。
几个重要概念:
- 从机器学习三要素中“策略"的角度来说,与理想分布最接近的模拟分布即为最优分布,因此可以通过最小化相对熵(即最小化模拟分布和理想分布之间的差异)这个策略来求出最优分布。
- 由于理想分布是未知但固定的分布(频率学派的角度),所以相对熵前面一部分为常量,那么最小化相对熵就等价于最小化交叉熵