新词发现与重要词计算
新词发现
背景:随着网络的交流的频繁,会出现很多新词,我们需要将发现新词,补充词表
词的定义:词相当于一种固定搭配
内部凝固度
释义: 我们认为词的内部应该是稳固的,也就是组成词的字同时出现的概率是较高的,而分散出现的概率是较低的,所有下面的算法计算:
解释
1.
p(W)表示这个词在语料中出现的频率
;出现的概率好,那么是一个词的概率相对要大一点
2.p(C1)...p(Cn)表示这个词中包含的字在语料中单独出现的概率
,因为如果单独出现的概率高,是词的概率就不大;比如:我以为
,出现很多次,但是我单独出现的多,我们知道这并不是一个词
3.n代表这个词有几个字
结论: 内部凝固度求出的值越大,则该字的组合是词的可能性越大。
左右熵
释义: 一个词的外部,即词的前后是多变的;比如“稳固”这个词,我们认为它前面搭配的词和后面搭配的词是多变的;可以放到多种语境下。这就是左右熵算法的由来。
公式如下:
算法释义:
pi是指在一个某个较大的语料中,某个字的组合前后,出现的不同字词的概率。
举例:假如语料中有个新的组合:“妈沫”;
我们统计出这个组合在语料中出现的次数
,并且找出它前面的所有字词的组合
,并计算出这些不同的字词出现的概率
;
1.“妈沫”
一共出现10次;前面分别出现3次“的”
;7次“好”
;那么概率就分别为0.3;0.7
2.我们就分别将0.3;0.7带入到Pi中,计算并求和
3.最后求相反数,所以左右熵越大,该种组合是词的可能性就越大
结论: 左右熵越大,该种组合是词的可能性就越大
重要词
理解: 一个词在某类文本(假设为A类)中出现次数很多,而在其他类别文本(非A类)出现很少,那么这个词是A类文本的重要词(高权重词);一个词在出现在很多领域,则其对于任意类别的重要性都很差。
示例:
恒星、白洞等 在天文领域出现多,其他领域出现少;即天文类文本重要词
中国,你好等词在很多领域都会出现 很难被定义为重要词
TF-IDF
引子: 刚刚我们已经说了怎么理解这个重要词,那么我们怎么通过数学,或者理解构建数学来体现上述的意思呢:如下
释义: NLP经典统计值 TF-IDF
1.TF:
词频,
即某个特定的词(恒星)在某类别(天文)中出现的次数
/ 该类别提取出来的词的总数量
2.IDF:逆文档频率
,即该词很少出现在其他的文档中;公式如下:
公式释义: 即语料库中,总的文档数量,与其中包含特定词的文档数量加1的比值,求log;我们可以得到结论,在总的文档中出现的次数越少,越倾向与该类文档中的重要词。
举例计算如下
前言:
TF-IDE的计算值 = TF * IDF
那么假设有四篇文档,分别是A、B、C、D;文中一共有a,b,c,d四个字母
统计的每一篇的文字数据如下:
A:a b c d a b c d
B: b c b c b c
C: b d b d
D: d d d d d d d
则TF的统计值 以及IDF的计算如下:
上述中,用计算的IDF与对于文章中的词的TF的计算结果
,就表明,这个词在这个文件、或者类比中的重要性
价值示例
原理: 每个词对于每个类别都会得到一个TF·IDF值,TF·IDF高 -> 该词对于该领域重要程度高,低则相反
使用场景
价值点:
挖掘数据中的重点关键词
比如:当下,我们手里有大量的各个领域的客户业务数据、报告文件,我们想知道这些领域中的重点、热点内容是什么?主要是哪方面的事情,则可以TF-IDF计算其每个领域的重点词
如下
这样我们就可以以较少的工作量,在大量的数据中,去挖掘其中有价值的信息
TF-IDF其他版本简介
释义: 虽然其计算公式有区别,但本质都离不开我们重要词的定义和筛选的逻辑,其中的区别在于,不同的公式可能在不同的场景下的效果,略有差异。
TF-IDF算法总结
算法特点
- TF-IDF的计算非常依赖分词结果,如果分词出错,统计值的意义会大打折扣
- 每个词,对于每篇文档,有不同的TF-IDF值,所以不能脱离数据讨论TF-IDF;并且数据本身不能太少,比如一篇,那么计算的值和统计词频没有太大的本质区别
- 类别数据均衡很重要,文本的整体幅度大小不能差距过大,比如:科技文本2000字,天文文本2万字,这会影响最终统计的结果
- 容易受各种特殊符号影响,提取对符合做一些预处理
TFIDF优势
- 可解释性好:可以清晰地看到关键词;即使预测结果出错,也很容易找到原因
- 计算速度快:分词本身占耗时最多,其余为简单统计计算
- 对标注数据依赖小:可以使用无标注语料完成一部分工作
- 可以与很多算法组合使用:可以看做是词权重
TFIDF劣势
- 受分词效果影响大
- 词与词之间没有语义相似度
- 没有语序信息(词袋模型)
- 能力范围有限,无法完成复杂任务,如机器翻译和实体挖掘等
- 样本不均衡会对结果有很大影响
- 类内样本间分布不被考虑
TF-IDF应用介绍
TFIDE应用-搜索引擎
- 对于已有的所有网页(文本),计算每个网页中,词的TFIDF值
- 对于一个输入query进行分词
- 对于文档D,计算query中的词在文档D中的TFIDF值总和,作为query和文档的相关性得分
TFIDE应用-文本摘要
- 通过计算TFIDF值得到每个文本的关键词。
- 将包含关键词多的句子,认为是关键句。
- 挑选若干关键句,作为文本的摘要。
TFIDE应用-相似度计算
- 对所有文本计算TFIDF后,从每个文本选取TFIDF较高的前n个词,得到一个词的集合S。
- 对于每篇文本D,计算S中的每个词的词频,将其作为文本的向量。
- 通过计算向量夹角余弦值,得到向量相似度,作为文本的相似度.
向量夹角余弦值计算: