知识图谱术语抽取

本文探讨了术语抽取在信息获取中的重要性,介绍了其在文本分析中的应用,如构建本体关系和自动摘要。重点讲解了高质量短语的评估标准和实现算法,包括统计特征、词图模型、主题模型以及深度学习中的Word2Vec。
摘要由CSDN通过智能技术生成

术语抽取

术语抽取简介

 

术语:
代表文章重要内容的一组词,可用于构建术语的上下位关系和其他本体关系,并且对文本聚类、分类、自动摘要等应用起到重要支撑作用

术语抽取:
• 提高信息获取效率
• 信息处理中一个很重要的课题;
• 有利于信息检索、数据挖掘、建立领域概念体系等自然语言处理课题的研究

高质量短语:

连续出现的单词序列,本质上是一个N-Gram, N指短语的长度。

例:support vector machine

1-Gram:support,vector,machine

2-Gram:support vector,vector machine

3-Gram:support vector machine

高质量短语评估标准:

a) 频率:一个N-Gram出现的频率越高,是高质量短语的可能性越大

b) 一致性:N-Gram中的单词搭配是否合理

c) 信息量:高质量的短语需要表达一定的主题和概念 例:“机器学习”和“这篇文章”相比,在机器学习的语料库中,前者的质量更高

a) 完整性:高质量的短语需要是一个完整的语义单元 例:“支持向量机“与“向量机”相比完整性要更高

 

术语抽取实现算法

有监督(不常用)

无监督: 基于统计特征;基于词图模型;基于主题模型

深度学习:基于Word2Vec词聚类算法

 

基于统计特征-TF-IDF

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值