文本挖掘与分析课程笔记_Week2

第二周笔记


熵函数

  • X的熵与其不确定性有关,不确定性越大,熵越大

这里写图片描述

熵应用于词的预测

  • 熵越高的词,越难预测

这里写图片描述

条件熵

  • 某个词在另一个词出现(或不出现)的前提下的熵
  • 通过调整熵函数中相应条件的概率,即可得到条件熵

这里写图片描述
这里写图片描述

用条件熵寻找组合关系

  • 对某个词在不同前提词下的条件熵进行比较

这里写图片描述

用“互信息”来寻找组合关系

  • 互信息具有非负性
  • 对称性
  • 当X和Y是相互独立时,它们互信息为0(两个词关联性越强,互信息越大)

这里写图片描述
这里写图片描述

用KL-divergence重写互信息(引入概率)

  • 分子:实际观察到的两个随机变量的联合分布
  • 分母:理想的两个随机变量的联合分布(相互独立)
  • 缺点:不出现的词概率为0(有些情况下不合理)【引入下面平滑概念】

这里写图片描述

Smoothing 平滑

  • 增加了虚拟段(使得不出现的词也不会概率为0)

这里写图片描述

主题挖掘与分析的定义

  • 原始数据可以不止文本,可加入其它许多非文本信息
  • 在收集到的系列文本中找k个主题
  • 找出哪篇文章在多大程度上涵盖了哪个主题
  • 对一些比较具体的问题,可以采用更有针对性的处理

这里写图片描述

从系列文本中挖掘k个主题

  • 防止取得的主题是一些频繁词:TF-IDF
  • 防止取得的主题(术语)太相似:Greedy algorithm 贪心算法

这里写图片描述

词对文本涵盖的计算

这里写图片描述

用单个词做主题可能产生的问题

  • 单个词做为主题表现力不够
  • 词汇涵盖的不完整性(如关联词)
  • 单个词脱离上下文(语境)后会有多义(模糊)

这里写图片描述

提升方法:用词分布来表示主题

  • 可以用更多词来表示主题
  • 可加入权重进行调节(区分词的重要程度)
  • 单个词可以通过其同组词来判断其具体意思

这里写图片描述

  • 输入:C,k,V ; C为文本的集合,k是主题数,V是词汇表
  • 输出:词分布,主题在文档中的覆盖

这里写图片描述

文本挖掘的生成模型

  • 基于数据来推算参数
  • 需要先建立模型,模型不同,结果(参数)也不同

这里写图片描述

最简单的语言模型:一元语言模型

  • 并不适用某些问题,像关心单词顺序的

这里写图片描述

对一元语言模型(Unigram LM)的估计

  • 极大似然估计:能赋予我们的被观察数据最大概率
  • 极大似然估计不一定是最优估计

这里写图片描述

极大似然估计 vs. 贝叶斯

  • 用极大似然估计的话,数据太小时会有问题(未出现的词概率就为0)
  • 贝叶斯加入了先验知识,使得任何词的概率不会为0

这里写图片描述
这里写图片描述

语言模型的建立

  • Wi表示某个词,共有M个,θi表示该词的概率
  • 可用拉格朗日乘数法解函数

这里写图片描述


课后测验

这里写图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值