术语抽取
术语抽取简介
术语:
• 代表文章重要内容的一组词,可用于构建术语的上下位关系和其他本体关系,并且对文本聚类、分类、自动摘要等应用起到重要支撑作用
术语抽取:
• 提高信息获取效率
• 信息处理中一个很重要的课题;
• 有利于信息检索、数据挖掘、建立领域概念体系等自然语言处理课题的研究
高质量短语:
连续出现的单词序列,本质上是一个N-Gram, N指短语的长度。
例:support vector machine
1-Gram:support,vector,machine
2-Gram:support vector,vector machine
3-Gram:support vector machine
高质量短语评估标准:
a) 频率:一个N-Gram出现的频率越高,是高质量短语的可能性越大
b) 一致性:N-Gram中的单词搭配是否合理
c) 信息量:高质量的短语需要表达一定的主题和概念 例:“机器学习”和“这篇文章”相比,在机器学习的语料库中,前者的质量更高
a) 完整性:高质量的短语需要是一个完整的语义单元 例:“支持向量机“与“向量机”相比完整性要更高
术语抽取实现算法
有监督(不常用)
无监督: 基于统计特征;基于词图模型;基于主题模型
深度学习:基于Word2Vec词聚类算法
基于统计特征-TF-IDF