从信息量到信息熵再到交叉熵(Cross Entropy)及TensorFlow实现细节

目录

信息量

信息熵

交叉熵

TensorFlow实现


信息量

        信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是Shannon(香农)从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量,分子状态越混乱,熵值越高,分子状态越稳定,熵值越低。香农用信息熵的概念来描述信源的不确定度。

        通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。比如在星期一的时候,小明告诉你明天星期二,你会觉得他脑残,因为明天是星期二是一个确定的事实,发生的概率p=1,不存在不确定性,也就是说不确定性为0,从小明的这句话中你获取不到任何信息量,也就是信息量为0;又比如小明告诉你明天是星期三,你还是会觉的他脑残,因为明天不可能是星期三,发生的概率p=0,同样也不存在不确定性,从这句话中也获取不到任何信息。但是有一天,在你买了彩票以后,小明得知你中奖的消息,然后

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
熵 (Entropy) 是信息论中的一个概念,用来衡量随机变量的不确定性。在机器学习中,我们通常使用交叉熵 (Cross-Entropy) 作为损失函数,用来衡量模型预测结果与实际结果之间的差异。 以下是一些关于熵和交叉熵的基本概念和公式。 ## 熵 (Entropy) 熵是一个概率分布的度量,它表示随机变量的不确定性。对于一个离散的随机变量 $X$,其熵的数学定义为: $$H(X)=-\sum_{x\in X}p(x)\log_2p(x)$$ 其中,$p(x)$ 表示随机变量 $X$ 取值为 $x$ 的概率,$\log_2$ 表示以 2 为底的对数。 可以看出,当 $p(x)$ 的分布越均匀(即所有 $x$ 的概率都相等)时,熵的值最大,达到 $H(X)=\log_2|X|$;当 $p(x)$ 的分布越集中在某些特定的取值上时,熵的值越小。 ## 交叉熵 (Cross-Entropy) 交叉熵是用来衡量模型预测结果与实际结果之间的差异的一种损失函数。对于一个离散的随机变量 $Y$,其真实分布为 $p(Y)$,模型预测的分布为 $q(Y)$,则交叉熵的数学定义为: $$H(p,q)=-\sum_{y\in Y}p(y)\log_2q(y)$$ 可以看出,当模型的预测结果与真实结果越接近时,交叉熵的值越小。 ## 交叉熵机器学习中的应用 在机器学习中,我们通常使用交叉熵作为分类模型的损失函数。对于一个分类问题,我们需要将输入 $x$ 分类到 $k$ 个类别中的一个,并且每个类别都对应一个概率值 $p_i$,表示输入 $x$ 属于第 $i$ 个类别的概率。设模型的预测结果为 $q_1,q_2,...,q_k$,表示输入 $x$ 属于每个类别的概率预测值,则其交叉熵的数学定义为: $$H(p,q)=-\sum_{i=1}^kp_i\log_2q_i$$ 我们的目标是最小化交叉熵,使得模型的预测结果尽可能接近真实结果,从而提高模型的准确率。 以上就是关于熵和交叉熵的基本概念和公式,希望能对你有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

leboop-L

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值