第三章 短语挖掘和实体识别

一. 短语挖掘

1. 什么是短语挖掘

这个的短语挖掘指的是词汇和短语的挖掘,是一个统称。短语挖掘输入的是领域语料,输出的是领域短语。领域语料是大量文章融合在一起组成的。

2. 高质量短语的评估维度

a. 频率,一个n-gram出现的频率越高,那么它是高质量的文章的可能性就越高。

b. 一致性,n-gram中的单词的搭配是否合理

b. 信息量,高质量的短语需要表达一定的主题和概念,比如“机器学习”和“这篇文章”相比,在机器学期的语料库了,前者的质量更高

c. 完整性,高质量的短语需要是一个完整的语义单元,如“支持向量机“与“向量机”相比,完整性要更高

3.领域短语挖掘方法

无监督学习方法

1. 候选短语生成:使用n-gram切割文章(n取1-6),设定频率阈值,保留频率在30以上(经验值)的短语。

2. 统计特征计算:tf-idf,textRank,PMI(点互信息), 左右邻熵。

it-idf,textRank可以筛除一下文中出现的频率高但是不那么重要的词,如代词,副词,介词,助词等。

PMI点互信息,通过衡量短语的一致性,比较n值相同的n-gram短语,哪种分割方式更合理。处理分词越界的情况。

比如说“电影院”比“的电影”更具备一致性

左右邻熵,描绘的是一个短语左右搭配的丰富度,一个好的短语左右搭配应该是分厂丰富的。而如果一个短语的左右搭配不那么丰富,就不是一个好短语。比如,“亚里士多”的右边总是出现一个“德“字,右熵不丰富,不是好短语。

3. 质量评分,综合这些特征分的结果,来评估短语的质量并得到一个分数,取评分靠前的k个短语作为输出。

有监督学习方法

在无监督学习的基础上添加样本标注,分类器学习,语料切割这两个过程。

样本标注:人工或者是远程监督的方式,远程监督一般使用在线知识库,如果短语在词库中就认为是高质量短语。

分类器学习:决策树,贝叶斯,随机深林,svm都可以,特征向量方面可以使用无监督学中的统计特征(if-idf,PMI,左右邻熵计算出来的值)

语料切割:其实就是过滤的过程,过滤候选短语中的高质量短语,进行下一轮迭代。

 

二. 同义词挖掘

1. 什么是同义词?同义词包括哪几类?

同义词是值意义相同或者相近的词。

包括下面几类: 

a. 不同国家的语言互译。如,玩具对toy

b. 相同含义的词。男孩与男生,枯萎与干枯

c.中国人的字,名,号,雅称,官称,谥号。如,宋太祖与赵匡义,周杰伦与周董

d. 动植物,药品,疾病等的别称或俗称。如:西红柿与番茄

e.简称。如,江西与赣。

2. 同义词的挖掘方法

a. 基于同义词资源的方式:爬虫爬取维基百科,百度百科,获取同义词信息。优点,准确度高。缺点,只包含书面用语。

b.基于匹配的方式:模式无法定义完全,召回率低

c.自举法:利用先用的模式找到同义词对,再利用同义词对取发现新的模式。反复重复上面两个步骤直到达到终止条件(准确率达到一定水平,或者无法发现更多的同义词)

 

三. 缩略词的检测,抽取和预测

1. 检测,抽取

缩略词的检测和抽取目的是为了发现文本中的缩略词对。目前缩略词的抽取方法主要以模式匹配为主。

1. 模式匹配:通过模板找到缩略词对。如A的同义词是B;A是B的简称等。

如何验证由模式匹配选出来的同义词的质量呢?

字符匹配程度:编辑距离,长度差异,缩略词的字在全称重的分布是否均匀。

词性特征:如北京大学的词性是【ns+n】,ns是地名,n是普通名词,显然只保留地名或者普通名词都是不对的。

2. 枚举并剪枝:枚举实体名称的所有的子序列,排除文章中没有出现的或者是出现频率太少的子序列

2. 缩略词的预测

四. 实体识别

实体识别指的是定位文章中的命名实体,并将其分到预先定义的类型集合当中。

1. 实体的类型有哪些?

粗颗粒度:人物,机构,地点,货币,时间,百分比

细颗粒度:演员,医生,运动员等。而且一个实体可有有多个标签。

2. NER的方法有哪些?

1. 基于规则匹配:优点可解释,缺点规则梳理难,无法穷尽规则,召回率低

2. 监督学习:使用BIO序列标注法,B表示实体名词的开始,I表示实体名词的中间或者是结束部分,O表示字符不是实体。

需要大量的以标注文本。使用CRF条件随机场。

半监督方法:自举法,或者是协同训练的方式,利用两个规则交替迭代不断优化的方式,得到更多的标记数据。但是需要注意如果不小心引入了错误,迭代的过程会将问题放大。每轮迭代如何进行自检呢?

3. 深度学习方法:也是监督学习方法中的一种。相对机器学习而言,不需要关注繁琐的规则和特征。但是因为这样,深度学习并没有真正意义上理解语言的含义。常用的方法BiLSTM-CRF(加密部分使用双向的LSTM,解密部分使用CRF条件随机场)

 

 

 

 

 

 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值