逻辑斯蒂回归与最大熵模型

逻辑斯蒂回归与最大熵模型都属于对数线性模型。

1、二项逻辑斯蒂回归模型

2、最大熵模型

最大熵原理认为,学习模型时,在所有可能的概率模型中,熵最大的模型就是最好的模型。

对于最大熵模型里面的特征的理解:

1、仅仅对输入抽取特征,即特征函数为\mathbf{f}(\mathbf{x})

2、对输入和输出同时抽取特征,即特征函数为\mathbf{f}(\mathbf{x}, y)

下面讲解一下如何把最大熵模型推导成logistic回归模型。

最大熵模型定义了在个给定输入变量x时,输出变量y的条件分布:

P(y |  \mathbf{x}, \boldsymbol\theta) = \frac{   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x}, y) \right) }{   \sum_{\mathbf{y} \in \textit{Dom}(y)} {     \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x}, y) \right)   } }

此处\textit{Dom}(y)是y所有可能取值的集合

如果我们限定y为二元变量,即\textit{Dom}(y) = \{ y_0, y_1 \},那么久可以把最大熵模型转换成logistic回归模型。我们还需要定义特征函数为

\bf{f} ({\bf{x}},y) = \left\{    \begin{array}{*{20}{c}}     {​{\bf{g}}({\bf{x}})}&{y = {y_1}}\\     {\bf{0}}&{y = {y_0}}   \end{array} \right.

即仅在y=y_1时抽取x的特征。在y=y_0时不抽取任何特征(直接返回为全0的特征向量)。

将这个特征函数代回最大熵模型,得到当y=y_1

\begin{align} P(y_1 | \mathbf{x}) &= \frac{   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_1) \right) }{   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_0) \right) +   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_1) \right)  } & \text{æ大çµæ¨¡åå®ç¾©} \\ &= \frac{  \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) }{   \exp\left( \boldsymbol\theta \cdot \mathbf{0} \right) +   \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right)  } & \text{ç¹å¾µå½æ¸ \textbf{f} çå®ç¾©} \\ &= \frac{  \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) }{   1 +   \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right)  } & e^0 = 1 \\ &= \frac{  1 }{   \exp\left(-\boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) +   1  } & \text{åå­åæ¯åé¤ä»¥} \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) \\ &= \sigma\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) & \text{logistic å½æ¸å®ç¾©} \end{align}

y=y_0

\begin{align} P(y_0 | \mathbf{x}) &= \frac{   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_0) \right) }{   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_0) \right) +   \exp\left( \boldsymbol\theta \cdot \mathbf{f}(\mathbf{x},y_1) \right)  } \\ &= \frac{   \exp\left( \boldsymbol\theta \cdot \mathbf{0} \right) }{   \exp\left( \boldsymbol\theta \cdot \mathbf{0} \right) +   \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right)  } \\ &= \frac{   1 }{   1 +   \exp\left( \boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right)  }\\ &= \frac{   \exp\left(-\boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) }{   \exp\left(-\boldsymbol\theta \cdot \mathbf{g}(\mathbf{x}) \right) +   1  } \\ &= 1 - P(y_1 | \mathbf{x}) \end{align}

我们发现,当类标签只有两个时,最大熵模型就是logistic模型。

表面上看,logistic回归模型里面的特征函数的确只考虑x不考虑y。然而通过上面的推导,我们发现其实g抽取的特征仅仅在y=y_1时被用到。另外,logistic回归模型当然有特征的概念。

转自  https://www.zhihu.com/question/24094554

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值