《Text Mining and Analytics》学习笔记——第二周

第一周笔记 : 《Text Mining and Analytics》学习笔记——第一周

目录

组合关系

1.熵

首先看一下我们遇到的问题:我们需要知道什么单词会有跟eats一起出现的趋势呢?
这里写图片描述

先设可能会一起出现的词为W
这里写图片描述
假设现在W有3个可选选项,分别为W=“meat”;W=“the”;W=“unicorn”。

我们可以发现有一些词是比较容易预测的:
the好像放哪都可以,所以容易预测很可能出现
而“unicorn”很不常见,也容易预测基本不会出现

而“meat”出现的频率介于两者之间,所以更难预测一些,可能出现也可能不出现

那我们到底要怎么衡量一个单词出现在某个短语中可能性呢?这里引入熵的概念来度量X的随机性。

熵的公式:
这里写图片描述

在一次事件中:
极端情况:当一旦此出现的概率为1或0的时候,它的熵为0

当单词的概率为1/2的时候,熵最大(当某件事情发生的概率为1/2时,足以说明这个事情很随机,比如抛硬币)。

这里写图片描述

对应到我们之前的问题中,其中“the”随处都可以看见,“unicorn”很不常见,所以他们的熵接近于0,而此时“meat”的对应的熵会明显高于其它两个单词。

现在我们可以得到熵越高词越难预测。

2.条件熵

上面是每一个单词单独出现的预测,那么当我们已知了eats已经存在于这个上下文中,那么其它单词的出现应该怎么预测呢?这里我们就引入了条件熵的概念。
这里写图片描述

那么条件熵就变为了:
这里写图片描述

  • 一般的 H(Xmeat)H(Xmeat|Xeats) H ( X m e a t ) ⩾ H ( X m e a t | X e a t s ) ,因为当我们增加了信息后,信息的不确定性就会降低,就会变得相对容易预测。

  • 条件熵的最小值:
    H(Xmeat|Xmeat)=0 H ( X m e a t | X m e a t ) = 0 ,因为我们已经知道了meat的存在,它就没有不确定性了。

  • H(Xmeat|Xthe) H ( X m e a t | X t h e ) H(

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值