新词发现与重要词计算

青山瀚海

于 2024-07-22 20:04:15 发布

阅读量546

点赞数 22

分类专栏： AI技术文章标签：深度学习 nlp 机器学习

本文链接：https://blog.csdn.net/m0_64531791/article/details/140534261

版权

AI技术专栏收录该内容

11 篇文章 0 订阅

订阅专栏

新词发现与重要词计算

新词发现
- 内部凝固度
- 左右熵
重要词

新词发现

背景：随着网络的交流的频繁，会出现很多新词，我们需要将发现新词，补充词表

词的定义：词相当于一种固定搭配

内部凝固度

释义： 我们认为词的内部应该是稳固的，也就是组成词的字同时出现的概率是较高的，而分散出现的概率是较低的，所有下面的算法计算：
在这里插入图片描述
解释

1.p(W)表示这个词在语料中出现的频率；出现的概率好，那么是一个词的概率相对要大一点
2.p(C1)...p(Cn)表示这个词中包含的字在语料中单独出现的概率，因为如果单独出现的概率高，是词的概率就不大；比如：我以为，出现很多次，但是我单独出现的多，我们知道这并不是一个词
3.n代表这个词有几个字

结论： 内部凝固度求出的值越大，则该字的组合是词的可能性越大。

左右熵

释义： 一个词的外部，即词的前后是多变的；比如“稳固”这个词，我们认为它前面搭配的词和后面搭配的词是多变的；可以放到多种语境下。这就是左右熵算法的由来。

公式如下： 在这里插入图片描述
算法释义：

pi是指在一个某个较大的语料中，某个字的组合前后，出现的不同字词的概率。
举例：假如语料中有个新的组合：“妈沫”；我们统计出这个组合在语料中出现的次数，并且找出它前面的所有字词的组合，并计算出这些不同的字词出现的概率；
1.“妈沫” 一共出现10次；前面分别出现3次“的”；7次“好”；那么概率就分别为0.3；0.7
2.我们就分别将0.3；0.7带入到Pi中，计算并求和
3.最后求相反数，所以左右熵越大，该种组合是词的可能性就越大

结论： 左右熵越大，该种组合是词的可能性就越大

重要词

理解： 一个词在某类文本（假设为A类）中出现次数很多，而在其他类别文本（非A类）出现很少，那么这个词是A类文本的重要词（高权重词）；一个词在出现在很多领域，则其对于任意类别的重要性都很差。
示例：

恒星、白洞等在天文领域出现多，其他领域出现少；即天文类文本重要词
中国，你好等词在很多领域都会出现很难被定义为重要词

TF-IDF

引子： 刚刚我们已经说了怎么理解这个重要词，那么我们怎么通过数学，或者理解构建数学来体现上述的意思呢：如下

释义： NLP经典统计值 TF-IDF

1.TF：词频，即某个特定的词（恒星）在某类别（天文）中出现的次数 / 该类别提取出来的词的总数量
2.IDF：逆文档频率，即该词很少出现在其他的文档中；公式如下：

在这里插入图片描述

公式释义： 即语料库中，总的文档数量，与其中包含特定词的文档数量加1的比值，求log；我们可以得到结论，在总的文档中出现的次数越少，越倾向与该类文档中的重要词。

举例计算如下

前言：

TF-IDE的计算值 = TF * IDF
那么假设有四篇文档，分别是A、B、C、D；文中一共有a,b,c,d四个字母
统计的每一篇的文字数据如下：
A：a b c d a b c d
B: b c b c b c
C: b d b d
D: d d d d d d d
则TF的统计值以及IDF的计算如下：

上述中，用计算的IDF与对于文章中的词的TF的计算结果，就表明，这个词在这个文件、或者类比中的重要性