前沿 | 社区问答系统及相关技术

最新推荐文章于 2024-08-11 19:35:34 发布

hugh深度学习

最新推荐文章于 2024-08-11 19:35:34 发布

阅读量3.7k

点赞数 2

作者：王斌（中国科学院信息工程研究所）、吉宗诚（南洋理工大学）

近年来，随着Web2.0的飞速发展，社区问答系统（简称社区问答，其中的社区称为问答社区）逐渐成为一种非常流行而实用的互联网应用。通过使用社区问答系统，人们不但可以发布问题进行提问以满足自己的信息需求，而且还可以回答其他用户提问的问题来分享自己的知识，此外用户还可以对系统所积累的问题答案库进行检索，以快速地满足自己的信息需求。目前，在互联网上已经出现了很多社区问答系统，根据系统所涉及的领域面的不同，可以将已有的社区问答系统分为两类。

●开放域的网站该类社区问答系统涵盖面比较广，涉及体育运动、医疗健康、教育科学、生活等各个领域的问题。例如，Yahoo! Answers（http://answers.yahoo.com/）、百度知道（http://zhidao.baidu.com/）、知乎（www.zhihu.com/）、搜搜问问（http://wenwen.soso.com/）、新浪爱问（http://iask.sina.com.cn/）等。

●限领域的网站该类社区问答系统涉及领域比较集中，往往只关注于某一领域的问题。例如服务于编程及软件开发相关问题的StackOverflow（http://stackoverflow.com/）、服务于Tax排版相关问题的TurboTax（https://ttlc.intuit.com/）等。

社区问答系统不但吸引了大量用户参与，而且还积累了海量的问题答案库资源，大大满足了用户的信息需求，同时也为社区问答系统的研究带来了许多机遇和挑战。如何利用好已积累的海量的问题答案资源，以及进一步促进社区问答系统的发展，已经成为该领域重要的研究课题，并吸引了众多研究学者的参与。

本文首先介绍社区问答系统的组成结构与典型流程，接着对相关的研究热点进行简单介绍，最后给出总结与展望。

组成结构与典型流程

图1展示了社区问答系统的组成结构，从图可见社区问答系统主要由问题、答案和社区三个元素组成。

图1：社区问答系统组成结构图

图2展示了用户在社区问答系统中获取信息或者分享知识的典型流程。其中虚线和实线所示流程分别代表用户在社区问答系统中获取信息的两种途径。具体地:

首先，用户将其信息需求以查询问题的方式提交到社区问答的检索系统中，检索系统从系统所积累的历史问题答案库中检索出与查询问题在语义上相同或相似的问题，并将候选历史问题及其答案返回给用户。此时用户充当的是搜索者的角色。如果用户从返回的结果中能够找到自己所需的信息，那么用户已经完成了自己的信息获取过程。

如果用户从返回的结果中没有找到自己满意的信息，那么此时用户便在系统的引导下给问题选择合适的类别标签，并对问题进行适当的补充描述，然后将问题正式提交发布以等待其他用户的回答。此时用户充当的是提问者的角色。当在会话页面中看到其他用户提交的答案时，提问者如果能够找到自己满意的答案，便从中选择最满意的答案并将其标注为最佳答案，此时问题将自动关闭并归档到历史问题答案库中以供其他用户提交相似问题时可以直接搜索并浏览历史问题及其答案;如果提问者未能找到自己满意的答案，要么继续等待其他用户的回答，要么关闭当前问题。

其他用户根据自己的个人兴趣、知识水平选择一些未解决的问题进行回答，并向系统提交答案。此时用户充当的是回答者的角色。

另外，任意用户还可以对其他用户的答案进行投票。此时用户充当的是投票者的角色。如果提问者未在一定时间内选出最佳答案，那么系统将会根据用户的投票信息来自动地选出最佳答案，此时问题也将自动关闭并归档到历史问题答案库中以供其他用户提交相似问题时可以直接搜索并浏览历史问题及其答案。

从图2以及对其具体的描述中，可以看到在社区问答系统中主要有:

两大功能:检索功能、会话功能，分别对应于以下两类资源。
两类资源:宝贵的问题答案库、活跃的社区用户。
三个元素:用户、问题、答案。
四种角色:搜索者、提问者、回答者、投票者。

图2：用户在社区问答系统中获取信息或者分享知识的典型流程图

研究热点

下面从社区问答系统的三个元素（问题、答案、社区）出发，对当前的研究热点进行简单介绍。表1列出了社区问答系统中比较具有代表性的研究问题。

表1社区问答系统中比较具有代表性的研究问题

1. 问题相关研究

（1）相似问题检索

相似问题检索（Question Retrieval）是指给定用户提交的查询问题（Queried Question），从已有历史问题答案库中，检索出与查询问题在语义上相同或相似的历史问题（Historical Question），并将这些问题及答案返给用户。如果用户能很快找到满意的相似问题及其答案，这样不但可满足用户的信息需求，节省用户的等待时间，提高系统的用户体检，而且还可以避免用户的重复提交。因此，对相似问题检索进行深入的研究具有非常重要意义。相似问题检索所面临的最大挑战是解决查询问题与历史问题之间的词汇鸿沟问题[1-2]。在已有研究工作中，具有代表性的方法主要包括基于翻译建模的检索模型[2-3]、基于话题建模的检索模型[4-5]、基于结构建模的检索模型[6-7]、基于深度学习的检索模型[8-10]。除了缓解相似问题检索中词汇鸿沟的问题，还有一些研究工作[11-14]提出不同的方法，利用问题的叶子类别信息，增强相似问题检索的性能。

（2）问题分类

问题分类（Question Classification）作为挖掘社区问答系统中用户查询问题意图的重要手段，引起了广泛的研究。许多研究人员根据不同的任务需求，定义不同的分类目标，对问题进行分类。Li等人在文献[15]中，将问题的主客观判断定义为一个分类任务。Liu等人在文献[16]中，将问题的紧急性判断定义为一个分类任务。Pal等人在文献[17]中，将问题答案对的期效性定义为一个分类任务。Cai等人在文献[18]中，提出将问题分类到社区问答系统中预定的层次分类体系中。

2. 答案相关研究

（1）答案质量预测

由于社区问答系统的开放性，问题和答案均由用户产生，内容质量参差不齐。能否自动从众多的候选答案中检测出高质量答案，将直接影响用户体验。通常，答案质量预测（Answer Quality Prediction）被描述为分类问题，所抽取的特征包括内容的文本特征、用户活跃度等非文本特征。常用的分类器包括最大熵模型[19]、决策树[20]以及层次分类器[21-22]。

（2）答案摘要生成

在社区问答系统中，通常一个问题只有一个最佳答案，并且该最佳答案由提问者从用户回答的多个答案中选出或者由社区用户投票产生。然而，Liu等人在文献[23]中的分析表明，尽管大多数选出的最佳答案是可重用的，但其中有近乎一半并非唯一的最佳答案;特别是开放性问题和观点性问题通常会有多个比较好的答案。为了充分利用其他用户给出的答案，更全面地满足提问者的信息需求，文献[23]利用自动文摘技术对问题的多个答案进行摘要生成，并针对不同类型的问题提出了不同的摘要生成方法。Tang等人在文献[24]中提出了一个最大覆盖模型，对答案进行摘要生成。Sakai等人在文献[25]中利用自动文摘和自动问答评价技术，提出了包含多个评价标准和分级相关的分级体系。

3. 社区相关研究

（1）问题路由

问题路由是将提问者新提交的问题推送给潜在的对该问题有兴趣，并最有可能提供答案的回答用户来回答，从而使新提交问题能够在较短的时间内得到回答。问题路由的关键在于如何对用户的专业知识进行建模。传统的思路主要考虑使用用户曾经回答过的所有问题来衡量用户的专业知识，并分别提出了基于语言模型建模的方法[26]、基于话题建模的方法[27-28]。此外，Zhou等人在文献[29]中将问题路由看成一个分类任务，即确定一个用户是否有能力回答当前问题。Ji等人在文献[30]中利用回答者与提问者之间的偏序关系，提出了一种基于排序学习的问题路由方法。而Xu等人在文献[28]中系统考虑了不同用户角色对结果的影响。考虑到用户的专业知识及其兴趣会随着时间的推移发生变化，Yeniterzi等人在文献[31]中首次提出一种动态的用户建模方法来进行问题路由。

（2）专家推荐

专家推荐（Expert Recommendation）是从众多的专家用户中，找出能够对提问者新提交问题提供比较高质量、完整并且可信的答案的用户，并且将新提交问题推送给这些排名靠前的专家用户去回答，从而使提问者能够得到满意的答案。专家推荐与问题路由明显不同的是，此时的任务重点强调挖掘社区用户中的专家用户以向提问者的问题提供高质量的答案;而问题路由的任务重点则强调挖掘社区用户中的所有潜在回答者以使得提问者的问题在较短的时间得到回答，但不一定是高质量的答案。前者强调答案的质量，而后者则更强调回答的时效性。Liu等人在文献[32]中首次提出该研究问题，并提出将查询似然语言模型和基于话题建模的模型进行结合，同时融入了用户权威度和用户活跃度信息来将问题推送给排名靠前的专家用户来回答。Riahi等人在文献[33]中提出了一个新的话题模型，对用户的配置文件进行建模，并使用该模型将新问题推送给专家用户来回答。Yang等人在文献[34]中使用问题的标签信息对用户进行建模，并取得了非常有效的专家推荐性能。

总结与展望

本文对社区问答系统的组成结构、用户获取信息或者分享知识的典型流程，以及热点研究问题进行了简单介绍。从已有的相关研究工作中可以看出，作为一个新兴而实用的互联网应用，社区问答系统已经受到国内外众多研究学者的关注，并取得了非常丰富的研究成果。然而，社区问答系统的研究还有许多问题有待解决，我们认为未来研究可以重点考虑三个方面。

1. 挖掘类别层次结构的语义信息

大部分社区问答系统对用户提交的问题都是按照人工设定好的层次类别体系进行组织的。已有的工作所使用的类别信息都仅仅考虑了问题的叶子类别信息，却忽略了这些叶子类别所属的含有丰富语义信息的层次结构。如果能够有效地挖掘类别层次结构的语义信息，不但可以更好地理解和区分众多叶子类别之间的关系，使得叶子类别的模型构建更加精细，而且还可以进一步增强相似问题检索的性能，提高系统的用户满意度。此外，在对系统用户进行建模时，也可以充分考虑用户所回答过的历史问题所属的类别体系，从而也可以使用户的模型构建更加精细，进一步增强问题路由和专家推荐的性能，提高系统效率以及答案质量。

2. 构建用户随时间变化的兴趣模型

用户是社区问答系统中三个基本元素之一，是系统得以持续发展的根本基础。因此，对系统中的用户进行有效的建模具有非常重要的意义。然而，随着时间的推移，用户在用户社区的影响下不断地学习着令其感兴趣的知识，因此用户的专业知识也会随着时间的推移而发生不断变化。如果能够从已有的用户行为中学习到随时间变化的动态的用户模型，系统将能够更加理解用户，从而更加合理地向潜在回答用户或专家推送未解决的问题。这也将大大激励了用户参与知识获取和知识分享的积极性，提高了系统的性能。

3. 开发有效的垃圾信息过滤机制

问题和答案是社区问答系统中非常重要的两个基本元素，是人们获取信息和分享知识的重要载体，但同时也为一些用户不合理使用资源提供了途径，例如发布垃圾信息以及广告等。尽管一些社区问答系统提供了一些功能允许用户对社区中的垃圾信息及广告行为进行投诉，但仍有必要研究并开发有效的垃圾信息过滤机制，以保证社区问答系统的健康发展，从而提供更好的用户体验。

总的来说，对社区问答系统的研究，无论是从推动学术界和产业界的发展来看，还是从满足用户的实际需求来看，都具有十分重要的意义。

注：本文曾刊于《人工智能学会通讯》2016年第六卷第01期。

作者简介：

王斌，中国科学院信息工程研究所研究员，博士生导师，主要研究方向为信息检索和自然语言处理。

吉宗诚，2004年9月-2008年6月就读于四川大学计算机学院，获得工学学士学位。2008年9月~2013年7月就读于中国科学院计算技术研究所，获得工学博士学位。目前在新加坡南洋理工大学从事博士后研究工作。主要研究方向为信息检索、信息抽取、自然语言处理等。

参考文献：

[1] Jiwoon Jeon, W. Bruce Croft, and Joon Ho Lee. Finding similar questions in large question and answer archives. In CIKM, pages 84-90, 2005.

[2] Xiaobing Xue, Jiwoon Jeon, and W. Bruce Croft. Retrieval models for question and answer archives. In SIGIR, pages 475-482, 2008.

[3] Guangyou Zhou, Li Cai, Jun Zhao, and Kang Liu. Phrase-based translation model for question retrieval in community question answer archives. In ACL-HLT, pages 653-662, 2011.

[4] Li Cai, Guangyou Zhou, Kang Liu, and Jun Zhao. Learning the latent topics for question retrieval in community qa. In IJCNLP, pages 273-281, 2011.

[5] Zongcheng Ji, Fei Xu, Bin Wang, and Ben He. Question-answer topic model for question retrieval in community question answering. In CIKM, pages 2471-2474, 2012.

[6] Huizhong Duan, Yunbo Cao, Chin-Yew Lin, and Yong Yu. Searching questions by identifying question topic and question focus. In ACL-HLT, pages 156--164, 2008.

[7] Kai Wang, Zhaoyan Ming, and Tat-Seng Chua. A syntactic tree matching approach to finding similar questions in community-based qa services. In SIGIR, pages 187-194, 2009.

[8] Xipeng Qiu and Xuanjing Huang. Convolutional Neural Tensor Network Architecture for Community-based Question Answering. In IJCAI, 2015.

[9] Guangyou Zhou, Tingting He, Jun Zhao and Po Hu. Learning continuous word embedding with metadata for question retrieval in community question answering. In ACL, 2015.

[10] Guangyou Zhou, Yin Zhou, Tingting He and Wensheng Wu. Learning semantic representation with neural networks for community question answering retrieval. In Knowledge-Based Systems, 2015.

[11] Zhao-YanMing, Tat-Seng Chua, and Gao Cong. Exploring domain-specific term weight in archived question search. In CIKM, pages 1605-1608, 2010.

[12] Li Cai, Guangyou Zhou, Kang Liu, and Jun Zhao. Learning the latent topics for question retrieval in community qa. In IJCNLP, pages 273-281, 2011.

[13] Xin Cao, Gao Cong, Bin Cui, Christian S. Jensen, and Quan Yuan. Approaches to exploring category information for question retrieval in community question-answer archives. ACM TOIS, 30(2): p. 1-38, 2012.

[14] Zongcheng Ji, Fei Xu, and Bin Wang. A category-integrated language model for question retrieval in community question answering. In AIRS, pages 14-25, 2012.

[15] Baoli Li, Yandong Liu, Ashwin Ram, Ernest V. Garcia, and Eugene Agichtein. Exploring question subjectivity prediction in community qa. In SIGIR, pages 735-736, 2008.

[16] Yandong Liu, Nitya Narasimhan, Venu Vasudevan, and Eugene Agichtein. Is this urgent?: Exploring time-sensitive information needs in collaborative question answering. In SIGIR, pages 712-713, 2009.

[17] Aditya Pal, James Margatan, and Joseph Konstan. Question temporality: Identification and uses. In CSCW, pages 257-260, 2012.

[18] Li Cai, Guangyou Zhou, Kang Liu, and Jun Zhao. Large-scale question classification in cqa by leveraging wikipedia semantic knowledge. In CIKM, pages 1321-1330, 2011.

[19] Jiwoon Jeon, W. Bruce Croft, Joon Ho Lee, and Soyeon Park. A framework to predict the quality of answers with non-textual features. In SIGIR, pages 228-235, 2006.

[20] Eugene Agichtein, Carlos Castillo, Debora Donato, Aristides Gionis, and Gilad Mishne. Finding high-quality content in social media. In WSDM, pages 183-194, 2008.

[21] Mohan John Blooma, Alton Y. K. Chua, and Dion Hoe-Lian Goh. A predictive framework for retrieving the best answer. In SAC, pages 1107-1111, 2008.

[22] Hapnes Toba, Zhao-Yan Ming, Mirna Adriani and Tat-Seng Chua. Discovering high quality answers in community question answering archives using a hierarchy of classifiers. In Information Sciences, 2014.

[23] Yuanjie Liu, Shasha Li, Yunbo Cao, Chin-Yew Lin, Dingyi Han, and Yong Yu. Understanding and summarizing answers in community-based question answering services. In COLING, pages 497-504, 2008.

[24] Yang Tang, Fangtao Li, Minlie Huang, and Xiaoyan Zhu. Summarizing similar questions for chinese community question answering portals. In ITCS, pages 36-39, 2010.

[25] Tetsuya Sakai, Daisuke Ishikawa, Noriko Kando, Yohei Seki, Kazuko Kuriyama, and Chin-Yew Lin. Using graded-relevance metrics for evaluating community qa answer selection. In WSDM, pages 187-196, 2011.

[26] Baichuan Li and Irwin King. Routing questions to appropriate answerers in community question answering services. In CIKM, pages 1585-1588, 2010.

[27] Mingcheng Qu, Guang Qiu, Xiaofei He, Cheng Zhang, Hao Wu, Jiajun Bu, and Chun Chen. Probabilistic question recommendation for question answering communities. In WWW, pages 1229-1230, 2009.

[28] Fei Xu, Zongcheng Ji, and Bin Wang. Dual role model for question recommendation in community question answering. In SIGIR, pages 771-780, 2012.

[29] Tom Chao Zhou, Michael R. Lyu, and Irwin King. A classification-based approach to question routing in community question answering. In WWW, pages 783-790, 2012.

[30] Zongcheng Ji, and Bin Wang. Learning to rank for question routing in community question answering. In CIKM, pages 2363–2368, 2013.

[31] Reyyan Yeniterzi and Jamie Callan. Moving from Static to Dynamic Modeling of Expertise for Question Routing in CQA Sites. In ICWSM, 2015.

[32] Mingrong Liu, Yicen Liu, and Qing Yang. Predicting best answerers for new questions in community question answering. In WAIM, pages 127-138, 2010.

[33] Fatemeh Riahi, Zainab Zolaktaf, Mahdi Shafiei, and Evangelos Milios. Finding expert users in community question answering. In WWW, pages 791-798, 2012.

[34] Baoguo Yang and Suresh Manandhar. Tag-Based Expert Recommendation in Community Question Answering. In ASONAM, 2014.