新词发现与重要词计算

新词发现

背景:随着网络的交流的频繁,会出现很多新词,我们需要将发现新词,补充词表

词的定义:词相当于一种固定搭配

内部凝固度

释义: 我们认为词的内部应该是稳固的,也就是组成词的字同时出现的概率是较高的,而分散出现的概率是较低的,所有下面的算法计算:
在这里插入图片描述
解释

1.p(W)表示这个词在语料中出现的频率;出现的概率好,那么是一个词的概率相对要大一点
2.p(C1)...p(Cn)表示这个词中包含的字在语料中单独出现的概率,因为如果单独出现的概率高,是词的概率就不大;比如:我以为,出现很多次,但是我单独出现的多,我们知道这并不是一个词
3.n代表这个词有几个字

结论: 内部凝固度求出的值越大,则该字的组合是词的可能性越大。

左右熵

释义: 一个词的外部,即词的前后是多变的;比如“稳固”这个词,我们认为它前面搭配的词和后面搭配的词是多变的;可以放到多种语境下。这就是左右熵算法的由来。

公式如下:在这里插入图片描述
算法释义:

pi是指在一个某个较大的语料中,某个字的组合前后,出现的不同字词的概率。
举例:假如语料中有个新的组合:“妈沫”;我们统计出这个组合在语料中出现的次数,并且找出它前面的所有字词的组合,并计算出这些不同的字词出现的概率
1.“妈沫” 一共出现10次;前面分别出现3次“的”7次“好”;那么概率就分别为0.3;0.7
2.我们就分别将0.3;0.7带入到Pi中,计算并求和
3.最后求相反数,所以左右熵越大,该种组合是词的可能性就越大

结论: 左右熵越大,该种组合是词的可能性就越大

重要词

理解: 一个词在某类文本(假设为A类)中出现次数很多,而在其他类别文本(非A类)出现很少,那么这个词是A类文本的重要词(高权重词);一个词在出现在很多领域,则其对于任意类别的重要性都很差。
示例:

恒星、白洞等 在天文领域出现多,其他领域出现少;即天文类文本重要词
中国,你好等词在很多领域都会出现 很难被定义为重要词

TF-IDF

引子: 刚刚我们已经说了怎么理解这个重要词,那么我们怎么通过数学,或者理解构建数学来体现上述的意思呢:如下

释义: NLP经典统计值 TF-IDF

1.TF:词频,即某个特定的词(恒星)在某类别(天文)中出现的次数 / 该类别提取出来的词的总数量
2.IDF:逆文档频率,即该词很少出现在其他的文档中;公式如下:

在这里插入图片描述

公式释义: 即语料库中,总的文档数量,与其中包含特定词的文档数量加1的比值,求log;我们可以得到结论,在总的文档中出现的次数越少,越倾向与该类文档中的重要词。

举例计算如下

前言:

TF-IDE的计算值 = TF * IDF
那么假设有四篇文档,分别是A、B、C、D;文中一共有a,b,c,d四个字母
统计的每一篇的文字数据如下:
A:a b c d a b c d
B: b c b c b c
C: b d b d
D: d d d d d d d
则TF的统计值 以及IDF的计算如下:
在这里插入图片描述
上述中,用计算的IDF与对于文章中的词的TF的计算结果,就表明,这个词在这个文件、或者类比中的重要性

价值示例

原理: 每个词对于每个类别都会得到一个TF·IDF值,TF·IDF高 -> 该词对于该领域重要程度高,低则相反

使用场景

价值点:挖掘数据中的重点关键词
比如:当下,我们手里有大量的各个领域的客户业务数据、报告文件,我们想知道这些领域中的重点、热点内容是什么?主要是哪方面的事情,则可以TF-IDF计算其每个领域的重点词

如下

在这里插入图片描述
这样我们就可以以较少的工作量,在大量的数据中,去挖掘其中有价值的信息

TF-IDF其他版本简介

释义: 虽然其计算公式有区别,但本质都离不开我们重要词的定义和筛选的逻辑,其中的区别在于,不同的公式可能在不同的场景下的效果,略有差异。

在这里插入图片描述

在这里插入图片描述

TF-IDF算法总结

算法特点

  1. TF-IDF的计算非常依赖分词结果,如果分词出错,统计值的意义会大打折扣
  2. 每个词,对于每篇文档,有不同的TF-IDF值,所以不能脱离数据讨论TF-IDF;并且数据本身不能太少,比如一篇,那么计算的值和统计词频没有太大的本质区别
  3. 类别数据均衡很重要,文本的整体幅度大小不能差距过大,比如:科技文本2000字,天文文本2万字,这会影响最终统计的结果
  4. 容易受各种特殊符号影响,提取对符合做一些预处理

TFIDF优势

  1. 可解释性好:可以清晰地看到关键词;即使预测结果出错,也很容易找到原因
  2. 计算速度快:分词本身占耗时最多,其余为简单统计计算
  3. 对标注数据依赖小:可以使用无标注语料完成一部分工作
  4. 可以与很多算法组合使用:可以看做是词权重

TFIDF劣势

  1. 受分词效果影响大
  2. 词与词之间没有语义相似度
  3. 没有语序信息(词袋模型)
  4. 能力范围有限,无法完成复杂任务,如机器翻译和实体挖掘等
  5. 样本不均衡会对结果有很大影响
  6. 类内样本间分布不被考虑

TF-IDF应用介绍

TFIDE应用-搜索引擎

  1. 对于已有的所有网页(文本),计算每个网页中,词的TFIDF值
  2. 对于一个输入query进行分词
  3. 对于文档D,计算query中的词在文档D中的TFIDF值总和,作为query和文档的相关性得分

TFIDE应用-文本摘要

  1. 通过计算TFIDF值得到每个文本的关键词。
  2. 将包含关键词多的句子,认为是关键句。
  3. 挑选若干关键句,作为文本的摘要。

TFIDE应用-相似度计算

  1. 对所有文本计算TFIDF后,从每个文本选取TFIDF较高的前n个词,得到一个词的集合S。
  2. 对于每篇文本D,计算S中的每个词的词频,将其作为文本的向量。
  3. 通过计算向量夹角余弦值,得到向量相似度,作为文本的相似度.

向量夹角余弦值计算:
在这里插入图片描述

  • 22
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值