词汇挖掘与实体识别(未完)

1 概述

实体:是文本中的一些词汇或者短语。例如清华大学、李白。
但有些词汇不是实体。例如鲜艳的,守株待兔。
具体措施:挖掘尽可能多高质量的词汇,筛选目标知识图谱中的实体。

2 词汇挖掘

2.1 关键词提取

2.1.1 基于特征统计

  • 词频
  • TF-IDF
  • 位置特征
  • 词跨度
  • 词的固定属性:词长、词性、是否全部大小写等

2.1.2 基于主题模型

主题模型的核心假设是:存在隐含变量(文本主题),决定文本中词汇的出现情况。获取每个主题下的高频词作为关键词。
在这里插入图片描述

2.1.3 Text-Rank算法提取

基于PageRank
在这里插入图片描述

在文本中词与相邻词之间,可以类比于有跳转关系的2个网页。

改进:直接设窗口半径,改进到从句法分析的角度定义链接关系。

2.2 同义词挖掘

2.2.1 同义词类型

1 不同国家的互译(自行车、bike)
2 相同含义的词(花朵、花儿)
3 不同称呼(周董、周杰伦;番茄、西红柿;上海、沪)

2.2.2 挖掘

1 字典:wordnet、汉语大词典、大词林(特点:质量高、不完整)
2 百科
3 基于模式匹配
X又称Y;X(Y);X简称Y,X,亦称Y;X俗称Y等等
特点:准确率高,召回率低(不能找到的同义词很多)
4 基于bootstrapping(自举法)
模式匹配,发现同义词对;
根据同义词对,发现更多的模式。
半监督模式,可以自己学习到一些模式。

2.3 缩略词挖掘

缩略词可以说是一种特殊的同义词。
同义词的挖掘方式也可以用于缩略词挖掘,但更多的还是要依靠人工。
缩略词有表音的:Doctor 与Dr

有表意的:北京大学与北大;安全理事会与安理会。

2.4 新词挖掘

新词是指词库中不存在的词,但还可能是一个词的词。
挖掘方法是先对文本进行分词。分词后根据词之间的凝固度,还有词左右熵来确定一个词是不是新词。
首先新词,可能是原来两个词,三个词…组成一个新词。
第二,看下候选词的凝固度。以两个词为例。如果x和y总是同时出现,x与别的词一起出现的概率低,y与别的词出现概率低,那大概率x和y可以组成一个新词。
P M I ( x , y ) = l o g P ( x , y ) P ( x ) ∗ P ( y ) PMI(x,y)=log\dfrac{P(x,y)}{P(x)*P(y)} PMI(x,y)=logP(x)P(y)P(x,y)
第三,看下候选词左边相邻词,右边相邻词的熵。表示了左右相邻词的丰富程度。越丰富表名候选词越可能成为一个词。
P ( x , y ) = − ∑ w ∈ W P ( w ) l o g P ( w ) P(x,y)=-\sum_{w\in W}P(w)logP(w) P(x,y)=wWP(w)logP(w),W是所有x,y组合左右相邻词的集合。

3 实体识别(NER)

3.1 基于概率图模型

3.2 基于深度学习

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值