第二周学习笔记

一、熵以及熵函数

0.前言
为了发现组合关系,在这里引进熵以及熵函数的概念。
1.问题引入
(1)引题1
在上次课我们知道,具有组合关系的词汇往往是共同出现,那么问题来了:当“eat”出现的时候,什么词也会同时出现呢(包括左边和右边)?
这里写图片描述
(2)引题2
上面的这个来自上节课的问题其实可以一般化,即预测词W是否出现在这篇文本里,如下图所示:
这里写图片描述
下面哪个词更有可能出现呢?
这里写图片描述

2.进入正题
要解决这个问题,首先我们将这个问题抽象成数学问题。我们先定义这样一个二值随机变量,如下所示:
这里写图片描述
显然,词W出现的概率与词W未出现的概率加和为1。
可想而知,当这个随机变量的随机性越大,预测就越困难。那么,怎么来量化度量这个随机变量的随机性呢?
基于这个问题,我们引入信息论中熵以及熵函数的概念,以此来量化度量这种随机性。其公式如下所示:
这里写图片描述
其中,规定,该函数式非负的,这在数学上是可证明的。
我们画出这个函数的函数图像进一步观察这个函数,其函数图像如下所示:
这里写图片描述
从这个图像我们可以看到,①这个函数图像是对称的;②它在中点处达到最大值,在两端达到最小值。为了更加深入地理解这个函数以及它的作用,举一个具体的例子,例子如下:
抛硬币,有两种硬币,一种是正常的硬币,一种是只会出现“人头”这面的硬币,在对这两种硬币抛出后对其结果进行预测,哪一种硬币的结果更容易预测?
解:第一种正常硬币的熵值:
这里写图片描述
第二种硬币的熵值:
这里写图片描述
最后可以看出,第二种硬币抛出去后更容易预测,这是显然的,因为只会出现一种结果,那就是“人头”面。
3.最后
最后让我们回到我们开始时的词W的预测问题,下面三个词那个词更可能出现在一篇文本中?或说更容易预测呢?
这里写图片描述
回答是,“the”的熵值最小,因为几乎在每一篇文本中the都会出现,它出现的概率太高,几乎为1,根据熵函数图像可以看出,其熵值几乎为0。
“unicorn”这个词在文本中出现的概率比较小,根据熵函数图像,它的熵值就比较小。
“meat”的熵值就比较大了,介于其余两者熵值之间。
4.结论
熵值越大,则其是否出现就越难被预测。

二、条件熵

1.问题引入
在一个文档中,加入我们知道“eat”的出现,是否对我们预测“meat”有帮助?
这里写图片描述
2.条件熵的提出
上述的问题,结合上次课提到的熵的概念,将之前熵中的概率计算扩展成条件概率带入熵函数公式的得到条件熵的基本定义。
这里写图片描述

这里写图片描述
条件熵函数的完整式为:
这里写图片描述
3.条件熵的相关性质
①对于任意的随机变量X与Y,都有H(X)>=H(X|Y);
②X=Y时,H(X|Y)=0达到最小值,当Y与X的关系可以忽略不计的时候,H(X|Y)=H(X),条件熵达到最大。
4.条件熵在挖掘组合关系的应用
对于每个单词W1:
对于每个其他单词W2,计算条件熵H(X W1 | X W2)
按H(X W1 | X W2)的升序对所有候选词进行排序
将排名最高的候选单词作为与W1有潜在组合关系的单词
需要为每个W1使用一个阈值
5.条件熵存在的问题
虽然H(X W1 | X W2)和H(X W1 | X W3)可比,但H(X W1 | X W2)
和H(X W3 | X W2)不能!
我们怎样才能从集合中挖掘出最强大的K组合关系呢?

三、互信息(MI)

1.互信息概念
互信息的计算公式:

其性质:
①非负性
②对称性
③当X与Y相互独立是,互信息为0
这里写图片描述
互信息概念的提出有助于解决条件熵的不足,当我们固定X来排列不同的Y时,I(X; Y)和H(X | Y)给出相同的顺序,但是I(X; Y)允许我们比较不同的(X,Y)对。
2.互信息在组合关系挖掘中的应用
承接上一节条件熵的应用实例:当“eat”出现的时候,哪些词更可能出现?这里,用互信息代替条件熵做计算:
这里写图片描述
由上式可见,当“eat”出现,“meat”更可能出现。
3.利用KL散度重写相互信息(MI)
互信息的计算公式变成:
这里写图片描述
其意义:MI测量了独立假设下实际联合分配与预期分配的差异。分歧越大,MI越高。
那么,与互信息相关的概率有:
这里写图片描述
联合概率合并的形式为:
这里写图片描述
不同概率之间的关系可以由下图所示:
这里写图片描述
4.互信息的计算
观察下图可知:我们只需要知道p(X W1 = 1),p(X W2 = 1)和p(X W1 = 1,X W2 = 1)的值就可以推算出互信息的值。
这里写图片描述
那么,p(X W1 = 1),p(X W2 = 1)和p(X W1 = 1,X W2 = 1)的值如何计算?
这里,我们定义这三个概率的计算公式:
这里写图片描述
其中,N为文档数据的总数,count()表示括号内单词在这N个文档中出现的次数。
在计算这三个概率时,为了防止某单词出现零计数的情况,计算时做平滑处理,分子分母加上很小的数,如下图所示:
这里写图片描述
5.模块小结
(1)组合关系挖掘的小结
通过测量两个词的出现之间的相关性可以发现组合关系。
信息理论的三个概念:
熵H(X):测量随机变量X的不确定性
条件熵H(X | Y):给定我们知道的Y的熵
互信息I(X; Y):由于知道Y(或X)而使X(或Y)熵的减少量
互信息为发现组合关系提供了一个原则性的方法。
(2)词联系挖掘小结
两个基本组合:范式和组合
通常适用于任何语言的任何项目(例如,短语或实体为单位)
纯统计方法可用于发现两者(可以合并执行联合分析)
通常适用于任何文本,无需人力
定义“上下文”和“段”的不同方式会导致应用程序的变化
发现的关联可以支持许多其他应用程序。

四、主题挖掘与分析

1.“主题”的含义与应用场景
•主题≈文本数据中讨论的主要想法
讨论或交谈的主题/主题
不同的粒度(例如,句子的主题,文章等)
•许多应用程序需要发现文本中的主题
Twitter用户今天在谈论什么?
目前的数据挖掘研究主题是什么? 与5年前的情况有什么不同呢?
人们喜欢iPhone 6的什么? 他们不喜欢什么?
2012年总统选举中争论的主要议题是什么?
“主题”反映现实世界发生着什么,是关于世界的知识
2.主题挖掘的任务
①首先从文档数据集中发现K个主题;
②然后指出谋篇文档涵盖某个主题的概率;如下图所示:
这里写图片描述
3.主题挖掘与分析的数学表示
输入:
①N个文档组成的文档集C={d1,d2,…dN}
②给定主题的数量K
输出:
①K个主题分类:
②每个主题对应每篇文档的覆盖率:
③πij 为某文档蕴含某一主题的概率,且
4.主题=术语(特定单词)
我们直觉上可以想到,我们要确定某一篇文档是什么主题,我们让文档中有的词(这个词很能反映文档)来刻画这篇文档,比如体育、科技、娱乐等等。
这种方式的主题挖掘思路和注意点如下:
首先从集合中挖掘k个专题术语C,接着:
①解析C中的文本以获取候选词语(例如,词语=词)。
②设计一个评分函数来衡量每个术语作为一个主题的好处。
喜欢有代表性的期限(高频被青睐)
避免太频繁的单词(例如“the”,“a”)。
从检索TF-IDF加权可以是非常有用的。
特定领域的启发式是可能的(例如,赞成标题词,主题标签)。
③选择得分最高的k项,尽量减少冗余。
如果多个术语非常相似或密切相关,请选择其中一个并忽略其他术语。
上述中提到了设计一个评分函数来衡量每个术语作为一个主题的好处,即πij ,其计算方式如下:
这里写图片描述

但是,这种挖掘主题的方式在实际运用中存在一些问题,问题如下:
①缺乏表现力
只能代表简单/普通话题
不能代表复杂的话题
②词汇覆盖不完整
无法捕捉词汇的变化(例如相关词)
③词义模糊(歧义)
专题术语或相关术语可能不明确(例如,篮球明星与天空中的明星)
那么如何来解决这些问题呢?于是有了下面的改进:概率主题模型。概率主题模型可以解决所有这些问题!
5.概率主题模型
针对前一个模型存在的问题,可以做以下三方面的处理:
①主题=词分布
②对每个词考虑权重
③拆分有歧义的词
其形象表示如下图:
这里写图片描述
概率主题模型的数学描述为:
输入:
①有N个文档的文档集C;
②单词集合V;
③主题数量K;
输出:
①K个包含词分布的主题分类:,
②每个主题对应每篇文档的覆盖率:
③πij 为某文档蕴含某一主题的概率,且
关于生成函数:初始时,我们认为我们的单词与主题之间会有一个原始的词分布,然后根据我们的数据,有这么一个函数通过数据来修正这个初始的词分布,使其最符合实际。
这里写图片描述
6.统计语言模型(LM)
(1)什么是统计语言模型?
统计语言模型关乎下面三个方面:
•字序列的概率分布
•依赖于上下文!
•可以被看作是“产生”文本的概率机制,因此也被称为“生成”模型
(2)Unigram LM
Unigram LM是最简单的统语言模型。其相关定义如下:
•通过独立生成每个单词来生成文本
•因此,p(w 1 w 2 … w n)= p(w 1)p(w 2)… p(w n)
•参数:{p(w i)} p(w 1)+ … + p(w N)= 1(N是V大小)
•文本=根据这个词分布绘制的样本
很显然,它在计算每个单词序列(句子)的时候只是将每个单词出现的概率相乘,非常的简单粗暴,并不是一个比较好的方法。为此,我们需要做下面改进。
(3)最大后验估计
先验模型,后验模型,最大似然模型的关系如图:
这里写图片描述
(4)统计语言模型的计算步骤
①输入文档集和单词集合
②选定Unigram LM模型对词分布概率做计算
③写出似然函数
④最终解即为是的似然函数最大的解
这里写图片描述
求解该解得思路如下:
这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值