非香农类信息不等式_ICLR 2020 | 北大图灵班满分论文:基于计算约束下有用信息的信息论...

【导读】这章主要是对连续变量熵等相关内容进行了介绍。其中美国物理学家Jaynes教授1957 年提出的最大熵原理是最为核心的理论贡献。该原理特别深刻,要知道它不仅是应用在统计推断方面,在很多领域中都可以成为一种原理给出信息论层面上的解释。基于最大熵原理可以根据不同约束导出各种概率分布函数(第8页)。过去认为熵是基于概率分布为已知而得到的一种结果。而最大熵原理给我的理解熵犹似“源”,因为它可导出概率分布表达。反之则不然,因为计算与导出表达是不同的。本章中另一个重要知识是不等式的学习与理解。如同香港中文大学杨伟豪教授指出的那样(第39页):信息论不等式给出了不可能发生的界,因此这将犹如信息论中的定律。比如其中Fano不等式与Kovalevskij不等式建立了条件熵与误差之间的关系,对机器学习中应用信息论指标有着直接的指导意义,并提供理论解释性。

第8页: 该页介绍了最大互信息可以导出经验式定义的相关系数,而其中的约束是随机变量最高阶次统计量只有二阶。由此例子我学到的内涵有:一是信息论指标更是“源”指标(导出其它,而非相反)。二是熵函数优化加约束可以提供更大的理论解释空间。三是熵指标原理上包容高阶统计量。

第27页: 这页内容是关于二值分类问题中,条件熵与误差之间界关系的讨论。本人2015年文章中的图给出了Fano下界曲线与Kovalevskij上界曲线。由于该文是讨论贝叶斯分类器,因此两类中的类别分布信息p_1与p_2已知。比如T中100个样本,有20个苹果,有80个鸭梨为标签。则p_1=0.2,p_2=0.8。由贝叶斯误差是分类器中理论上最小值这个知识(见Duda《模式分类》中文版第36页),文章添加了另一个上界,在此是蓝色横线p_min=p_1=0.2表示的。此界说明对于给定类别分布的贝叶斯分类器,不可能出现误差大于0.2的情况。图中三角代表贝叶斯分类器计算结果,而圆圈代表互信息分类器计算结果。可以看到该结果已经超出Kovalevskij上界,这里就引出了我们后来发展的界研究工作。这将是第5章中的内容。

该图示意了贝叶斯误差最小学习目标与条件熵最小学习目标在作用力方面有着等价的内涵。都是趋向原点。但是分类问题中多数情况是无法到达原点。因此两者通常没有一对一的关系。即根据给定样本分布得到的最小贝叶斯误差,其对应的条件熵有多解,可以不是最小条件熵。反之亦然。由此要理解条件熵有误差的近似内涵,但本质上是两个随机变量独立性的指标(第22页)。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值