语境
分类 | 详情 |
---|---|
物理语境 | 时间、地点/场所 ; 天气 ; 情绪及情感; 设备显示; 设备感知 |
言语语境 | 上下文;主题及焦点;设备反馈 |
知识语境 | 人类常识; 领域知识;Agent画像;设备信息库; 用户画像 |
语境的生命周期 | 请求级别;会话级别;长期 |
知识图谱
- Thing, not Strings
- 是一种知识的组织形式
- 是一种概念模型
- 关系数据库 :ER
- 面向对象 :类图
- 是一种图模型
- 节点: 实体,值
- 边: 关系,属性
知识图谱的构建
本体层:
实体抽取(NER)
- CRF+Bi-LSTM
关系抽取:
- 有监督的学习方法:看成分类问题、需要大量标注(准确度高)
- 半监督学习方法:取一小部分标注,然后迭代
- 无监督学习方法:聚类
知识抽取框架:
Deepdive
- 使用弱监督学习,从非结构化的文本中抽取结构化的关系数据,可以判断俩个实体间是否存在指定关系。具有较强的灵活性,可以自己训练模型。
- 主要要求开发者思考特征而不是算法。
- 可以通过使用已有的领域知识指导推理,接受用户反馈,提高预测的质量
- 使用distant supervision 技术,只需要少量甚至不需要训练数据
基于深度学习端到端的联合标注
- 将抽取问题转换成标注任务,训练一个端到端标注模型来抽取关系
- 根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果。
例子:
实体对齐
- 实体对齐,将实体归并成代表真实世界同一对象的具有全局唯一标识的实体对象。
- 实体对齐,主要计算相似度;具有相同描述的实体可能是同一实体;具有相同属性-值的实体可能是相同对象;具有相同邻居的实体可能是同一实体。
- 要充分考虑数据源的可靠性以及不同信息在各个数据源中出现频度来决定最终选用哪个类别和哪个属性值。
- 利用来自如LOD(linked open data中已有的人工对齐标注数据),发现更多相似的实体对
步骤 | 详情 |
---|---|
模式设计 | 概念层的定义;属性定义;约束及规则的定义;模式精简 |
数据来源 | 领域百科表格;通用百科导出;业务系统导出;外部系统的输入 |
词汇挖掘 | 同义词挖掘; 缩率词挖掘; 短语挖掘;情感词挖掘 |
实体发现 | 实体实现; 实体归类; 实体链接 |
关系发现 | 关系分类 |
知识融合 | 实体对齐 ;属性融合 ; 值规范化 |
质量控制 | 知识补全; 知识纠错; 知识更新; |
领域KG(领域的知识图谱)可以是用户编辑、应用的反馈去修正知识本体
知识推理
- 基于符号的推理
- 基于OWL本体的推理
- 基于图的方法(PRA算法)
- 基本思想:将量级两个实体的路径作为特征来预测其之间的可能存在的关系
- 基于分布式知识语义表达的方法(Trans系列模型)
- 将实体和关系映射到一个低纬度embedding空间中
- TransR模型:多对多 ,实体空间关系空间
- 基于深度学习的推理
可参考:清华大学开源OpenKE:知识表示学习平台
典型的知识图谱的评估方案
评估方案 | 方法说明 | 评估层次 |
---|---|---|
基于黄金标准评估 | 将所构建的本体与黄金标准(一个工人比较成熟的本体或者人工标注术语集)比对,罗列不足进行改进 | 词汇数据层,层级分类层、语义关系层 |
基于本体任务、应用的本体评估 | 一个特定应用环境下,测试一组本地,看哪个本体最适合该应用,这些应用包括语义网、信息抽取、信息检索等 | 词汇数据层,层级分类层、语义关系层、应用层 |
数据驱动评估 | 通过衡量本体与领域预料的匹配度或者本地的领域覆盖度来衡量本体,或者使用其他参考数据来辅助本体评估过程,这种方法常与文本分析、机器学习技术结合 | 词汇数据层、层级分类层、语义关系层 |
基于指标的评估(人工评估) | 基于一套预先定义好的准则原则、标准等进行评估的方法。其多是从构建本体的原则来评估本体 | 词汇数据层,层级分类层、语义关系层、应用层 |
实体发现与链接发现
预处理 :
- 建立mention->entity的关系表
- 抽取entity相关特征
- 实体的先验法律(知名度)
- 实体上下文次分布与篇章的主题词分布
- 实体之间的语义关联度
发现文本中的mention,并找到候选词实体
对候选词实体排序,返回最有可能的实体
- 实体本身的信息
- 实体与实体之间协同关系
–参考内容:
https://edu.csdn.net/course/play/9250/215582
知识图谱关键技术与应用案例