Web 2.0技术的飞速发展带来了互联网中的用户生成内容(User-generatedContents, UGC)的规模的不断增长。作为一种新的网络信息资源,高质量的用户生成内容的研究和应用价值正逐渐显现。由问题和其答案组成的问答对是用户生成内容的典型代表,是用户之间以互联网为媒介的知识分享行为的直接产物。
1,用户生成内容(问答对)的特点:
用户生成的问答对组成的问答资源:
①网络文本为载体的体现形式之一,
②同时也蕴含着人类在通过网络进行交流过程中的语言规律。
③来源:社区问答系统、论坛等。
④由于网络社区中的知识分享并不存在义务性,有价值的问答信息往往混杂在大量的无意义
信息之中,因此对于问答知识库的构建研究来说,从包含着大量噪声信息的网络社区内容中自动识别和抽取问答信息是一个具有挑战性的任务。
研究的意义:对于问答系统的构建还是自然语言处理研究来说,优质的问答资源都具有举足轻重的地位。
研究内容:
本文主要研究面向网络社区问答对的语义挖掘中的关键问题,语义挖掘研究:①不仅包含基于语义关系的社区问答对自动识别②
同时也包括利用问答对中蕴含的语义知识进行问答信息的生成及融合等任务。