机器学习经典问题解析

本文深入探讨了机器学习的经典问题,包括信息熵的辛钦定理、ID3算法构建决策树的过程、多层感知器网络设计及其在网络图表示、深度学习优化算法的考量、随机梯度下降的采样策略以及卷积运算的参数计算。同时,还介绍了循环神经网络中的LSTM单元、堆叠受限玻尔兹曼机的AutoEncoder应用以及对抗生成网络的Loss Function和训练策略。
摘要由CSDN通过智能技术生成

1. 简述信息熵(Entropy)推导的辛钦定理(The Khinchin Axioms for Entropy,1957)。

       假设X为1,2,……k的离散随机变量,并将Pr(X=i)缩写为pi。若要将此分布简化为一个函数H[X],那H[X]必须服从以下定理。其中,我们定义H[X,Y]为两随机变量(X,Y)的函数,H[Y|X=x]是条件分布Pr(Y|X=x)的函数。
① H[X]仅取决于X的概率分布。
② 给定k值,当所有i都满足pi=1/k时,此时的H[X]是最大的。(即随机变量的取值为均匀分布时,信息熵最大)
③ 假设Y是1,2,……m(m>k)的随机变量,如果Pr(Y=i)=pi(当i<=k),Pr(Y=i)=0(当k<i<=m),那么H[Y]=H[X]。(即0概率事件不影响信息熵)
④ 对于任意随机变量X和Y,都有
在这里插入图片描述
(具体内容可参考http://www.stat.cmu.edu/~cshalizi/350/2008/lectures/06a/lecture-06a.pdf)


2. 推导The Khinchin Axioms for Entropy,1957。

       可以证明,当且仅当H[X]具有以下形式时,H[X]满足上方的辛钦定理:
                            在这里插入图片描述
       当b>1时,H[X]称为香农熵,在计算机科学与信息论中,b通常取2;在统计力学和理论统计中,b通常取e。

       证明如下:
       当X和Y是独立的,由(1)式可得
                            在这里插入图片描述
       根据(3)式,任意满足下式形式的函数都将满足辛钦定理(α>=0):
                            在这里插入图片描述
       Hα[X]称为Renqi熵,由于辛钦的第④定理是“如果独立则可加”规则的特例,所以香农熵应该是Renqi熵的特例,即α&

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Lil Wing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值