文本挖掘与分析课程笔记_Week2

最新推荐文章于 2022-03-10 10:33:49 发布

DranGoo

最新推荐文章于 2022-03-10 10:33:49 发布

阅读量592

点赞数

分类专栏： coursera学习笔记文章标签： coursera学习笔记 NLP自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/DranGoo/article/details/78917278

版权

coursera学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第二周笔记

熵函数

X的熵与其不确定性有关，不确定性越大，熵越大

这里写图片描述

熵应用于词的预测

熵越高的词，越难预测

这里写图片描述

条件熵

某个词在另一个词出现（或不出现）的前提下的熵
通过调整熵函数中相应条件的概率，即可得到条件熵

这里写图片描述

用条件熵寻找组合关系

对某个词在不同前提词下的条件熵进行比较

这里写图片描述

用“互信息”来寻找组合关系

互信息具有非负性
对称性
当X和Y是相互独立时，它们互信息为0（两个词关联性越强，互信息越大）

这里写图片描述

用KL-divergence重写互信息（引入概率）

分子：实际观察到的两个随机变量的联合分布
分母：理想的两个随机变量的联合分布（相互独立）
缺点：不出现的词概率为0（有些情况下不合理）【引入下面平滑概念】

这里写图片描述

Smoothing 平滑

增加了虚拟段（使得不出现的词也不会概率为0）

这里写图片描述

主题挖掘与分析的定义

原始数据可以不止文本，可加入其它许多非文本信息
在收集到的系列文本中找k个主题
找出哪篇文章在多大程度上涵盖了哪个主题
对一些比较具体的问题，可以采用更有针对性的处理

这里写图片描述

从系列文本中挖掘k个主题

防止取得的主题是一些频繁词：TF-IDF
防止取得的主题（术语）太相似：Greedy algorithm 贪心算法

这里写图片描述

词对文本涵盖的计算

这里写图片描述

用单个词做主题可能产生的问题

单个词做为主题表现力不够
词汇涵盖的不完整性（如关联词）
单个词脱离上下文（语境）后会有多义（模糊）

这里写图片描述

提升方法：用词分布来表示主题

可以用更多词来表示主题
可加入权重进行调节（区分词的重要程度）
单个词可以通过其同组词来判断其具体意思

这里写图片描述

输入：C，k，V ； C为文本的集合，k是主题数，V是词汇表
输出：词分布，主题在文档中的覆盖

这里写图片描述

文本挖掘的生成模型

基于数据来推算参数
需要先建立模型，模型不同，结果（参数）也不同

这里写图片描述

最简单的语言模型：一元语言模型

并不适用某些问题，像关心单词顺序的

这里写图片描述

对一元语言模型（Unigram LM）的估计

极大似然估计：能赋予我们的被观察数据最大概率
极大似然估计不一定是最优估计

这里写图片描述

极大似然估计 vs. 贝叶斯

用极大似然估计的话，数据太小时会有问题（未出现的词概率就为0）
贝叶斯加入了先验知识，使得任何词的概率不会为0

这里写图片描述

语言模型的建立

Wi表示某个词，共有M个，θi表示该词的概率
可用拉格朗日乘数法解函数

这里写图片描述

课后测验

这里写图片描述

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
文本挖掘与分析课程笔记_Week2

第二周笔记熵函数X的熵与其不确定性有关，不确定性越大，熵越大熵应用于词的预测熵越高的词，越难预测条件熵某个词在另一个词出现（或不出现）的前提下的熵通过调整熵函数中相应条件的概率，即可得到条件熵用条件熵寻找组合关系对某个词在不同前提词下的条件熵进行比较用“互信息”来寻找组合关系互信息具有非负性对
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。