- 知识体系构建(KB)
- 基于业务特点,梳理知识体系;
- 非结构化输入文本抽取三元组
(主实体Subject,关系Predicate,客实体Object)
,并以特定方式进行存储(通常为图数据库)。- 如:"周星驰的电影功夫上映于2004年",包含两对三元组
(周星驰,拍摄的电影,功夫)
,(功夫,上映时间,2004年)
;
- 如:"周星驰的电影功夫上映于2004年",包含两对三元组
- 标准问答查询(QA)
- 关系实体抽取
- 查询语句抽取二元组
(主实体Subject,关系Predicate)
; - 如:"功夫上映于哪一年",包含一对二元组
(功夫,上映时间)
;
- 查询语句抽取二元组
- 实体消歧
- 解决同名实体产生歧义的问题;
- 如:周星驰和星爷应对应同一实体;
- 关系链接
- 将抽取得到的实体与关系进行链接,保证链接后的实体关系在知识体系中是有效的;
- 如:豆瓣影评任务下询问"周星驰的母亲叫什么名字",所得到的二元组
(周星驰,母亲)
是非法的,因为知识体系中未建立该关系;
- 结果查询
- 在知识体系中检索合法的关系实体对,获取结果输出。
- 关系实体抽取
训练数据
[
[
"骗中骗的评分高吗",
"豆瓣评分",
"B-title I-title I-title O O O O O"
],
[
"安东尼娅家族啥时候上映的呀",
"电影上映时间是什么",
"B-title I-title I-title I-title I-title I-title O O O O O O O"
],
...
]
测试
{
"text": "大话西游之大圣娶亲是最近刚上的电影吗",
"predicate": "电影上映时间是什么",
"subject": [
{
"title": "大话西游之大圣娶亲"
}
],
"response": "2014"
}