模型
线性模型可以进行回归学习,而对于分类则不适用。对此,我们可以采用广义线性回归模型,找一个单调可微函数将真实标记y和线性回归模型的预测值联系起来。
对于二分类任务来说,,预测值,则y关于z的函数可以表示为,
通常用连续函数代替阶跃函数。变换得到,称为“几率”,称为“对数几率”。
策略
概率质量函数
若将视为,则,
令,,再令,,则概率质量函数为 , 或 .
极大似然估计
对数似然函数:. 代入概率质量函数得到,.
信息论
自信息:.
信息熵:
相对熵(KL散度):,p(x)为理想分布,q(x)为模拟分布,为交叉熵。 为常量,当交叉熵最小时,相对熵最小。
对于对数几率回归,
交叉熵经变换得到, .