文章目录
1 概述
实体:是文本中的一些词汇或者短语。例如清华大学、李白。
但有些词汇不是实体。例如鲜艳的,守株待兔。
具体措施:挖掘尽可能多高质量的词汇,筛选目标知识图谱中的实体。
2 词汇挖掘
2.1 关键词提取
2.1.1 基于特征统计
- 词频
- TF-IDF
- 位置特征
- 词跨度
- 词的固定属性:词长、词性、是否全部大小写等
2.1.2 基于主题模型
主题模型的核心假设是:存在隐含变量(文本主题),决定文本中词汇的出现情况。获取每个主题下的高频词作为关键词。
2.1.3 Text-Rank算法提取
基于PageRank
在文本中词与相邻词之间,可以类比于有跳转关系的2个网页。
改进:直接设窗口半径,改进到从句法分析的角度定义链接关系。
2.2 同义词挖掘
2.2.1 同义词类型
1 不同国家的互译(自行车、bike)
2 相同含义的词(花朵、花儿)
3 不同称呼(周董、周杰伦;番茄、西红柿;上海、沪)
2.2.2 挖掘
1 字典:wordnet、汉语大词典、大词林(特点:质量高、不完整)
2 百科
3 基于模式匹配
X又称Y;X(Y);X简称Y,X,亦称Y;X俗称Y等等
特点:准确率高,召回率低(不能找到的同义词很多)
4 基于bootstrapping(自举法)
模式匹配,发现同义词对;
根据同义词对,发现更多的模式。
半监督模式,可以自己学习到一些模式。
2.3 缩略词挖掘
缩略词可以说是一种特殊的同义词。
同义词的挖掘方式也可以用于缩略词挖掘,但更多的还是要依靠人工。
缩略词有表音的:Doctor 与Dr
有表意的:北京大学与北大;安全理事会与安理会。
2.4 新词挖掘
新词是指词库中不存在的词,但还可能是一个词的词。
挖掘方法是先对文本进行分词。分词后根据词之间的凝固度,还有词左右熵来确定一个词是不是新词。
首先新词,可能是原来两个词,三个词…组成一个新词。
第二,看下候选词的凝固度。以两个词为例。如果x和y总是同时出现,x与别的词一起出现的概率低,y与别的词出现概率低,那大概率x和y可以组成一个新词。
P
M
I
(
x
,
y
)
=
l
o
g
P
(
x
,
y
)
P
(
x
)
∗
P
(
y
)
PMI(x,y)=log\dfrac{P(x,y)}{P(x)*P(y)}
PMI(x,y)=logP(x)∗P(y)P(x,y)
第三,看下候选词左边相邻词,右边相邻词的熵。表示了左右相邻词的丰富程度。越丰富表名候选词越可能成为一个词。
P
(
x
,
y
)
=
−
∑
w
∈
W
P
(
w
)
l
o
g
P
(
w
)
P(x,y)=-\sum_{w\in W}P(w)logP(w)
P(x,y)=−∑w∈WP(w)logP(w),W是所有x,y组合左右相邻词的集合。