复合名词抽取

一、复合词抽取的方法简介
1、基于规则的方法:
主要通过领域语料进行大规模分析,根据复合词的构词特点,人归纳总结复合词构词规则库,利用这些规则库进行匹配抽取领域复合词。准确率高,难度大,规则以及实体关系的构建比较困难。

2、基于统计的方法:
利用统计策略提取出潜在的新词,然后再利用语言知识和其他统计方法学到的知识过滤干扰字串,eg:crf。
基于统计的方法效率比较高,可移植性也比较高,普遍性好,就是准确率有时候不太理想。

3、统计与规则相结合的方法:
规则比较准确但难以发下新词汇,统计则某些方面的识别不如规则方法,两者相结合能够进行更多新词的识别。

新做法:基于位置标签与词性结合的复合词结合语言规则和统计的方法。

复合词汇通常都是名词性短语或者名词性功能短语,表示承接或者过度的词语几乎不会出现在复合词中,比如,‘是、的、在、不仅’等等。其构成规则通常都是“名词+名词”、“名词+动词”、“名词+名词+名词”。出这些结构特征外,复合词一般都在各个领域内频率很高,比如‘数据挖掘’、‘自然语言处理’等这些词汇在“计算机领域出现概率较为高,而在其他的领域文段(句子)中出现比较少”,又比如医学领域的复合词汇,“腰间盘突出”

二、分词的方法
1、基于词典查询匹配
匹配不到新词,随着词典规模的增大,会导致效率变低。

2、基于统计的分词算法
仅仅依靠统计中领近的字出现的概率信息进行切分,给出几个连续的字构成一个词的可信程度。
(1)最大熵模型
(2)N元语法
(3)隐马尔可夫模型

3、基于理解的分词算法
ai自动分词,分词时候结合语法分析,句法分析,使用语义信息和句法信息处理歧义。模拟人对句子的理解,(难)

三、复合词抽取
1、基于统计
(1)互信息(Mutual Information)
在这里插入图片描述
c1,c2代表相邻的两个原子词,当有三个及以上时,效率不佳,MI越大说明这几个原子词组成复合词的概率越大。

(2)TF-IDF方法
在这里插入图片描述
TF越大表明概念在领域语料中出现的次数越多,IDF越大表明背景语料集出现该概念的文本数目越少。
TF代表概念在领域语料中出现的频次,IDF表示背景语料集中所有文档的数目与背景语料集中出现术语的文档数目的比值。
(3)出现频率
按照词串出现的次数进行串频统计的方式进行复合词识别,简便但虽然一个词串多次出现却不一定成为一个复合词,但如果两个词或者多个词同时出现,则说明着多个词之间存在特定的意义。

统计的方法思想是通过词频去体现一个词在领域内的重要性,无需人工构造词典,没有领域限制,因为是通过计算词频实现的抽取,语言可移植性强。
缺点:无法抽取出现次数比较少的词,并且需要大量的训练集,如果太少则不具有统计代表性。一个高频率出现的短语或者词组可能会被抽取出来,导致准确率不高。

2、基于语言学规则的方法
a、预处理:清洗,自动分词和词性标注
b、发现找出符合名词的构成模式:
eg:动词+名词,名词+名词 等等
c、反复比较复合词在特殊情况下的构词规则
eg:名词+后缀词
d、将含有停用词的过滤
优点:准确率高,计算小
缺点:匹配规则是建立在某一语言词法分析上得到的,所以语言依赖性强,移植性差;词法分析需要大量的领域文本领域文本进行词法分析。

3、混合的方法
method1:使用语言学规则的方法对领域语料进行归纳分析建立抽取规则,然后再进行规则匹配获取候选复合概念词集,最后再采用统计学的方法对语料进行抽取得到候选符合概念词集。
method2:线采用统计学的方法对候选符合概念词集进行抽取得到候符合概念词集,然后融合语言规则建立规则对候选概念集合进行过滤获得领域复合词。

思考:
无论统计学的方法还是基于规则的方法都需要大量的数据并且受到各个不同知识领域困扰,比如计算机领域的复合词,医学领域的词,军事领域词等等,各个领域的词汇可能在其他领域没那么容易区分出来。所以在此之前可以先划分好有多少的领域词汇(太过于模糊化的领域可以笼统为一个),然后在抽取前先归于某一领域,再做信息的抽取,多个模型结合,结果更加精准。

声明:内容来自《基于位置标签的复合词抽取方法研究》论文解读
http://www.doc88.com/p-0592322885790.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值