李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(2)·最大熵模型

李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(2)·最大熵模型标签(空格分隔): 机器学习教程·李航统计学习方法李航统计学习方法笔记第6章 logistic regression与最大熵模型2最大熵模型最大熵原理1 最大熵原理的基本内容2 最大熵原理的几何意义最大熵模型1 到底应该如何表示分类模型2 最大熵模型的约束条件21 最大熵模型的一个总述
摘要由CSDN通过智能技术生成

李航·统计学习方法笔记·第6章 logistic regression与最大熵模型(2)·最大熵模型

标签(空格分隔): 机器学习教程·李航统计学习方法


注意,这里有一个前提,这里讨论的分类模型都是概率模型!
最大熵模型是另外一种机器学习模型,与逻辑斯蒂回归模型没有什么关系,只不过被安排在了一个章节讲解


最大熵原理只是一个学习的准则,利用这个准则可以从一堆概率模型中选择一个最优的

1 最大熵原理

最大熵模型是根据最大熵原理推导得到的,所以,为了推导最大熵模型,必须首先了解最大熵原理!

1.1 最大熵原理的基本内容

  • 最大熵原理认为:在所有可能的概率模型中,熵最大的模型为最好的概率模型(下图中的阶段2)
    image_1b3givefe1sdq1hbv7s01fqm1gsum.png-27.6kB
  • 这里的“所有可能的概率模型”是一个概率模型的集合,是在所有的概率模型中,根据一定的约束条件选取出来的(上图中的阶段1)

    不知道能否这样理解???
    比如,对应逻辑斯蒂回归模型中,它使用的用来表示分类器的模型其实就是利用逻辑斯蒂分布构造的一个概率分布,这个概率分布的形式是一定的,只不过参数待求,那么,可以将这些形式一定但参数未知的概率分布看着是“所有可能的概率模型”的集合,在这个集合中,找到熵最大的那个模型,也就实现了参数的求解

  • 综上,最大熵原理可以表述为:在满足约束条件的概率模型集合中选取熵最大的模型

    那么,如何计算概率模型的熵呢? 先讨论离散情况

    对于某一个随机变量X,它的概率分布为P(X)(即PMF或者说是分布律),它的熵定义为

    H(P)=i=1nP(xi)logP(xi)

    它表述的是随机变量X取得所有可能值 xi ( i=1,,n )带来的自信息的数学期望,即表征了该信号带来的信息量!


    上面的熵的取值范围是什么呢?

    0H(P)logn

    具体推导过程见《最优化理论·拉格朗日Lagrange对偶性的一个实例》

  • 所以,最大熵原理的具体内容或者说是实际使用方法为:

    • 根据已有的信息(约束条件),选择适当的概率模型
    • 对于那些不确定的部分,认为它们是等可能的,也就实现了最大熵的目的
    • 那这个方法如何使用呢?下面给出一个实际的例子:
      image_1b27b8ghv143r1lpi14d81ui1s2e9.png-10.8kB
      • 首先,根据已知条件,可以得到下面的约束:
        image_1b27bc6i51cfl1rlrbdt15n3ekd1g.png-3.4kB
        除此信息外,不再有其他可利用信息,那么,根据最大熵原理(不确定的信息认为其为等可能),则有
        image_1b27bb9js1l0a3r61f19mi81blj13.png-3.7kB
      • 如果接下来又添加了一个可用信息
        image_1b27bdvmus7tg681qrj1td9iui1t.png-5.2kB
        则此时,再根据最大熵原理,可以得到
        image_1b27bel58ka71ca61b6ub19npc2a.png-4.7kB

1.2 最大熵原理的几何意义

  • 下图是所有可能的概率模型空间(用一个2单纯形表示),所有可能的概率空间位于三角形内部
    image_1b3epdhcb1na99d21d3s1hgg1b479.png-10.4kB
  • 现在加入了两个约束条件,此时的概率空间变小了,变成了图中的5条之间的某个交集围成的区间(由于这里并没有给出两个约束的具体内容,所以这个区间还不能确定,可能是下图中的四个子区间的任何一个)
    image_1b3h4egfmt52r0r1tdf1jqs1isc13.png-25.9kB

2 最大熵模型

2.1 到底应该如何表示分类模型?

  • 对于分类问题,它的分类模型可以表示条件概率分布: P(Y|X)
  • 例如,对于一个三分类的分类问题,这个分类模型其实就是一个离散型的条件概率分布,每个类别 Y 的概率取值都有一个模型 P(Y=i|X) ,它不是一个具体的取值,而是一个与输入的样本 X=x x 为一个特征向量)相关的一个函数:可以认为,该表就是要求解的分类器!!!
可能取值 类别1 类别2 类别3
分布律 P(Y=1|X) P(Y=2|X) P(Y=3|X) 通俗理解 函数 p1(x) 函数函数 p2(x) 函数 p3(x)
  • 再以逻辑斯蒂回归问题的模型 P(Y|X) 为例
可能取值 Y=1 Y=0
概率 P(Y=1|X)=exp(wx)1+exp(wx) P(Y=0|X)=11+exp(wx)
通俗理解 函数 p1(x)
  • 11
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
李航的《统计学习方法》是一本经典的统计学习教材,其中涵盖了统计学习的基本理论和方法。该书主要介绍了统计学习的三要素:模型、策略和算法。引用提到,训练集用来训练模型,验证集用来选择模型,测试集用于对学习方法的评估。这些三要素是统计学习方法的基础。引用进一步解释了统计学习的目标,即通过构建概率统计模型对数据进行准确的预测与分析,并提高学习效率。引用提到了一种常用的统计学习方法,即提升(boosting),它通过改变训练样本的权重,学习多个弱分类器,并将它们线性组合成一个强分类器,以提高分类的性能。 总结起来,李航的《统计学习方法笔记主要围绕统计学习的基本理论和方法展开,介绍了统计学习的三要素、目标和提升等常用方法。这本书对于学习统计学习的人来说是一本非常有价值的参考资料。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [统计学习方法——李航 笔记](https://blog.csdn.net/qq_45383347/article/details/110482540)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [李航统计学习方法学习笔记](https://blog.csdn.net/liuzuoping/article/details/98840923)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值