阿里云天池大赛赛题解析(深度学习篇)--阅读笔记1--赛题一

阿里云天池大赛赛题解析(深度学习篇)–阅读笔记1

[x]表示遇到不懂的知识,将在【知识补充】给出具体讲解。



前言

如果说机器学习主要解决大数据的应用问题,那么深度学习的出现,则开始解决机器感知问题。

提示:以下是本篇文章正文内容,下面案例可供参考

赛题一 瑞金医院MMC人工智能辅助构建知识图谱

本赛题将对知识图谱构建环节[1]中的重要技术—实体识别,进行详细讲解。

背景

糖尿病患者多,病因复杂,表现出的症状多种多样,给糖尿病的诊断和治疗带来了很大的困难。

任务

第一阶段:基于糖尿病临床指南和研究论文的实体标注构建;
第二阶段,基于糖尿病临床指南和研究论文的实体间关系构建。

介绍知识图谱(Knowledge Graph)

发展历史

最开始的目的是用来提高搜索引擎的搜索质量,理解用户查询背后的语义信息。(things not strings)
语义网络(Semantic Network,施事者,事件,受益者,物体)–> 本体(Ontology,确定领域内共同认可的词汇)–> 语义网(Semantic Web,描述万维网中资源和数据之间的关系)

表达方式

如何表达知识?知识图谱主要通过图的形式(节点与边)来结构化地组织知识。
通常使用三元组:源节点,边,目标节点,即主语,谓语,宾语的SPO三元组,是构成知识图谱的最小单位。
通常使用RDF(Resource Description Framework,资源描述框架)来组织三元组,一般用XML语法表示,后续有RDFs出现,且有OWL语言[2]进一步扩展了RDFs。
表示学习[3]能为知识图谱的相关任务带来很大的提升。

构建方式

如何构建知识图谱?构建知识图谱的核心是构建描述知识图谱的SPO三元组。
实体识别:解决S和O的识别问题,主要是确定实体在文本中的边界和分类。
关系抽取:主要是识别给定实体之间的关系,通常由领域内的专业给定。
知识融合;主要目的是对多个不同的知识图谱进行三元组的对齐,来获得更大的知识图谱,主要是实体的对齐。无监督实体对齐:通过对实体提取特征,再根据特征相似度进行聚类来实现对齐。相似度衡量手段有编辑距离[4]、Jaccard系数[5]、余弦相似度[6]等。
指代消解:是信息抽取中的一项关键任务。如一个实体的多种表达方式,还有以代词的形式存在,要准确理解其背后的语义信息。常用的方法有Mention Pair(所有指代词两两组合,再进行正负的二分类)和Mention Ranking(将一个指代词与其他词结合,通过softmax来判断这个指代词与哪一个候选词概率最大)。

知识推理

如何进行知识推理?主要任务是从已知的知识推理出未知的知识(知识图谱补全)和识别已有的错误(质量校验)。方法包括基于符号逻辑的推理和基于表示学习的推理。

知识补充

[1] 知识图谱构建环节:知识建模(约定模式,定义实体、关系、事件)、知识获取(实体识别、关系识别、事件识别)、知识融合(相同形式合并)、知识存储、知识计算(推理,挖掘相关性)、知识应用。
[2] OWL语言:一种定义和实例化web本体的语言,供计算机处理Web信息,比RDF具有更强的机器解释能力。
[3]表示学习:在深度学习领域内,表示是指通过模型的参数,采用何种形式、何种方式来表示模型的输入观测样本X。表示学习指学习对观测样本X有效的表示,是学习一个特征的技术的集合,将原始数据转换成为能够被机器学习来有效开发。
[4]编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测,方式是看至少需要多少次的处理(插入、删除、改写字符)才能将一个字符串变成另一个字符串。
[5]Jaccard系数用于比较有限样本集之间的相似性与差异性。Jaccard系数值越大,样本相似度越高。定义为:给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值。
[6]余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值