徐波 博士 计算机,中文问答系统中问题分类技术研究

中文问答系统中问题分类技术研究

【摘要】:问答(Question Answering, QA)系统允许用户以自然语言形式进行提问,并直接返回精确的答案。与传统搜索引擎相比,问答系统的查询方式更加人性化,较好地满足了用户快速、准确地获取信息的需求,代表着下一代智能搜索引擎的发展方向。

问题分类通过确定问题的目标答案类型,为后续答案抽取和选择提供语义限制和约束,缩小候选答案的查找范围,并针对不同的问题类型选择不同的答案选择策略,对提升问答系统的整体性能具有特别重要的意义。

问题分类类似于文本分类,但问题分类比文本分类更难。问题分类的处理对象是简短的问句,所含特征信息相对较少。对于当前基于监督学习的问题分类来说,其关键在于特征提取,所提取的特征越丰富,分类的精度也就越高。但是,现有研究存在以下两点不足:

(1)特征提取很大程度上依赖于自然语言处理技术。无论是从现阶段的自然语言处理技术水平来看,还是从问答系统的实时性要求方面考虑,这种特征提取方式不仅会遇到实现技术上的限制,而且也难以满足实际问答系统的需求。

(2)忽视了对所提取特征的组合优化。现有工作大都根据所提取特征本身的分类精度,将一些认为比较重要的特征组合到一起。这种单纯依据特征本身重要性的特征组合方法具有一定的主观性,进而也影响了实际的问题分类效果。

对于中文问题分类,上述两点更加明显。由于中文自然语言处理技术相对于英文还远远不够成熟和完善,加之相应的语言处理基础资源(知识库、语料库等)等的缺乏,与英文问题分类相比,问句特征的提取更加困难。同时,由于中文语言表达的多样性和复杂性,所提取的中文问题特征之间的关联性更强,对这些特征进行组合优化就显得更为重要。

本文针对中文问题分类精度偏低的现状,从丰富特征集合及优化特征组合等层面,来探讨提升当前中文问题分类性能的具体实现途径。具体工作如下:

(1)针对中文问题分类缺乏丰富的特征,提出一种融合基本特征和词袋绑定特征的问句特征模型。在词袋、词性和词义等基本特征的基础上,通过将词性、词义等基本特征与词袋特征分别进行绑定,自动获取一类新的问句特征——词袋绑定特征,并将基本特征与词袋绑定特征进行融合,以获取更加高效的问句特征集合。这种新的问句特征模型不仅具有实现简单、处理开销小的优点,而且有效弥补了基本特征在句法、语义表达方面的不足。实验结果表明,在基本特征基础上融入词袋绑定特征以后,取得了与目前同类型问题集上已知最好的分类精度相当的分类效果。

(2)针对(1)中词袋绑定操作只是将词性、词义等基本特征单独绑定到词袋上,将其扩展为可以将词性、词义等若干基本特征同时绑定到词袋上的多重词袋绑定(multi-ple bag_of_words binding,MBWB)操作。通过在普通词袋和主干词词袋(trunk_BOW, T_BOW)上分别应用MBWB操作,自动生成两类潜在的问句特征——MBWB特征和T MBWB特征。MBWB操作可以更加充分地挖掘蕴含于基本特征之间的潜在特征,定程度上缓解了现有特征提取方法所面临的语言技术限制问题。实验结果表明,在基本特征基础上加入MBWB特征、T_MBWB特征以后,问题分类精度获得了较大的提升。

(3)针对依据特征重要性分析(importance analysis,ⅠA)的特征组合方法具有一定的主观性,提出一种基于重要性和抑制性分析(importance-inhibition analysis,ⅡA)的特征组合方法。该方法在组合问句特征时不仅考虑了单个特征本身的重要性,还考虑了待组合特征之间的抑制性。实验结果表明,与IA特征组合方法相比,ⅡA方法总体上要更加高效。

(4)考虑到ⅡA特征组合方法在特征数量较大时实现效率较低,进一步提出一种基于差异性和重要性的特征组合(diversity and importance based feature combination, DIFC)方法。借鉴分类器集成领域中的分类器互补指数来度量特征之间的差异性,并将差异性的定义由仅考虑样本集被错误分类时的差异(错分差异),扩展为同时考虑样本集被正确分类时的差异(正分差异);将互补性的定义扩展为同时考虑待组合特征与当前特征组合的差异性,以及待组合特征本身的重要性。实验结果表明,与ⅡA等其他特征组合方法相比,DIFC方法灵活高效,准确率更高。

fd6a45540877e2c8f1f416abf872ddb3.png

【相似文献】

中国期刊全文数据库

前20条

1

卢志坚,张冬茉;中文问答系统中的问句理解[J];计算机工程;2004年18期

2

王树西;问答系统:核心技术、发展趋势[J];计算机工程与应用;2005年18期

3

贾君枝;毛海飞;;汉语框架网络问答系统问句处理研究[J];图书情报工作;2008年10期

4

胡小华;刘轩;刘丹;陆伟;;基于冗余的仿真问答系统的轻量级局部文本分析[J];图书情报知识;2009年01期

5

张中峰;李秋丹;;社区问答系统研究综述[J];计算机科学;2010年11期

6

陈玉;;基于“为什么”问句的中文问答系统研究[J];农业网络信息;2010年11期

7

陈玉;;基于关键词距离的中文问答系统研究[J];电脑开发与应用;2011年01期

8

翟菊叶;马吴迪;;电子商务问答系统的研究[J];科技信息;2011年18期

9

李季;浅谈中文问答系统[J];辽宁经济职业技术学院.辽宁经济管理干部学院学报;2004年01期

10

林鸿飞;丁洪文;杨志豪;赵晶;;基于概念和统计的问答系统实现机制[J];大连理工大学学报;2006年02期

11

杜玮;邸书灵;孙树静;;基于互联网技术的问答系统研究[J];微计算机信息;2007年36期

12

张晓孪;王西锋;李乃乾;;中文问答系统中问题理解的研究与实现[J];西华大学学报(自然科学版);2008年02期

13

姜东洋;;中文问答系统中问题理解的研究[J];电脑知识与技术;2008年05期

14

刘杰;樊孝忠;王涛;;基于本体的受限领域问答系统研究[J];广西师范大学学报(自然科学版);2009年01期

15

陈敏杰;;问答系统中问题分析模块的实现[J];经营管理者;2009年13期

16

刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期

17

黄莉;;浅析汉语问答系统中的句子检索方法[J];价值工程;2010年14期

18

曾庆鹏;吴水秀;;网络教学平台中问答系统的关键技术研究[J];计算机与现代化;2010年07期

19

刘高军;马砚忠;段建勇;;社区问答系统中“问答对”的质量评价[J];北方工业大学学报;2012年03期

20

张永奎,赵辄谦,白丽君,陈鑫卿;基于互联网的中文问答系统[J];计算机工程;2003年15期

中国重要会议论文全文数据库

前10条

1

何靖;陈翀;闫宏飞;;开放域问答系统研究综述[A];第六届全国信息检索学术会议论文集[C];2010年

2

栾家阳;张文波;姚天昉;;基于汽车领域的情感问答系统设计与实现[A];第五届全国青年计算语言学研讨会论文集[C];2010年

3

张琼;陈群秀;;面向网络的问答系统研究综述[A];第一届学生计算语言学研讨会论文集[C];2002年

4

王树西;刘群;白硕;王斌;程学旗;姜吉发;;基于动态知识库的问答系统研究[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年

5

吴友政;赵军;段湘煜;徐波;;构建汉语问答系统评测平台[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年

6

王树西;白硕;;中文问答系统中的模式推理[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年

7

栗振江;杨洋;李丽;;智能问答系统[A];2011年全国通信安全学术会议论文集[C];2011年

8

陈志峰;朱巧明;;面向课程教学的中文问答系统研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年

9

高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年

10

李茹;王文晶;梁吉业;宋小香;刘海静;由丽萍;;基于汉语框架网的旅游信息问答系统设计[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年

中国博士学位论文全文数据库

前10条

1

路遥;用户交互式问答系统中问题推荐机制的研究[D];中国科学技术大学;2012年

2

王树西;基于文本模式推理的问答系统研究[D];中国科学院研究生院(计算技术研究所);2005年

3

4

刘松;基于全信息的问答系统研究[D];北京邮电大学;2014年

5

呼大为;面向问答系统的答案获取方法研究与实现[D];中国科学技术大学;2008年

6

李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年

8

刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年

9

黎新;面向问答系统的段落检索技术研究[D];中国科学技术大学;2010年

10

倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年

中国硕士学位论文全文数据库

前10条

1

崔艳敏;限定领域内问答系统的设计与实现[D];内蒙古大学;2010年

3

张可培;基于阅读理解模式的中文问答系统研究[D];宁波大学;2011年

4

薛冰;一种基于知网的社会化问答系统研究与实现[D];西安电子科技大学;2011年

5

申晨;中草药问答系统的设计与实现[D];浙江大学;2014年

6

刘渊杰;社区问答系统最佳回答机制的研究[D];上海交通大学;2010年

8

常毅;开放领域的问答系统研究[D];中国科学院研究生院(计算技术研究所);2004年

9

韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年

10

王永芳;面向农民的问答系统设计与实现[D];山西大学;2011年

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值