熵，互信息，KL距离（相对熵），交叉熵

最新推荐文章于 2022-01-08 00:06:08 发布

trayfour

最新推荐文章于 2022-01-08 00:06:08 发布

阅读量3.9k

点赞数 2

分类专栏：机器学习自然语言处理文章标签：相对熵基尼系数信息增益

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014422406/article/details/77899293

版权

本文介绍了信息论中的基本概念，包括熵（衡量随机变量的不确定度）、联合熵（描述一对随机变量的信息量）、互信息（表示已知Y后X的不确定性减少量）、相对熵（即KL距离，衡量分布间相似度）和交叉熵（常用作机器学习的损失函数）。还探讨了信息增益和基尼系数在特征选择中的作用。

摘要由CSDN通过智能技术生成

熵

信息论中的熵，又叫信息熵。它是用来衡量，一个随机变量的不确定程度。
熵越大，他的不确定性越大。最大熵模型的假设就是基于此而来。

H (X) = E [I (x i)] = - \sum n = 1 N P (x I) l o g (P (x i))

$\begin{equation*} H(X) = E[I(x_{i})] = -\sum_{n = 1}^NP(x_{I})log(P(x_{i})) \end{equation*}$

联合熵

联合熵用得比较少。它表示，我要描述这一对随机变量，平均下来我所需要的信息量。

H (X, Y) = - \sum x \in X

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
熵，互信息，KL距离（相对熵），交叉熵

熵信息论中的熵，又叫信息熵。它是用来衡量，一个随机变量的不确定程度。熵越大，他的不确定性越大。最大熵模型的假设就是基于此而来。 H(X)=E[I(xi)]=−∑n=1NP(xI)log(P(xi))\begin{equation*}H(X) = E[I(x_{i})] = -\sum_{n = 1}^NP(x_{I})log(P(x_{i}))\end{equation*}联合熵联合熵用得
复制链接

扫一扫

专栏目录

trayfour CSDN认证博客专家 CSDN认证企业博客

码龄10年

36: 原创

18万+: 周排名

123万+: 总排名

26万+: 访问

: 等级

1846: 积分

43: 粉丝

103: 获赞

29: 评论

194: 收藏

私信

关注

热门文章

分类专栏

最新评论

Evaluation of Parsing 句法分析评测
qq_37236894: 感谢大佬受益匪浅
统计不同时间段在线人数，给定若干（进入，离开）时间对
zzssddffgg: 感觉有些问题，我的理解： result[i] = result[i - 1] + nbegin[i] - nend[i]
统计不同时间段在线人数，给定若干（进入，离开）时间对
各位观众全体起立: 楼主这样写还是没考虑全哈，比如用户在1时进来，1时离开，这样算法结果会记录在1时刻人数为0，因此需要在第一个for循环里面加一个相等判断，如果相等，那么nend直接pass
Constituent Parsing & Dependency Parsing 句法分析简介
六七～: 请问怎么使用这两种算法的结果对一个长句子进行分段？也就死您说的将一些词组合起来变成短语结构
sigmoid和softmax总结
黑山白雪m: sigmoid本来就是二分类的，softmax不同之处在于归一化加入了类内竞争，其实多分类也可以用多个二分类分支实现，这样就不存在类内竞争，适合单样本不同语义标签的识别。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。