知识图谱赵军学习笔记(一)--概论

什么是知识图谱

  • 知识的种类
  1. 陈述性知识(描述性知识)
    描述客观事物的性状等静态信息
    分为事物,概念,命题3个层次
    事物是特定的事或物
    概念是对一类事物本质特性的反映
    命题是对事物之间关系的陈述
    1. 概括性命题
      描述概念之间普遍关系
    2. 非概括性命题
      描述特定事物之间的关系
  2. 过程性知识(程序性知识)
    描述问题如何求解等动态信息
    1. 规则
      描述事物的因果关系
    2. 控制结构
      描述问题的求解步骤
      图谱将传统基于浅层语义分析的信息服务范式提升到基于深层语义的知识服务
  • 知识和结构化数据
  1. 本体
    抽象的概念表示
  2. 数据库
    电脑表示和存储计算机应用中的数据的产品
  3. 框架
    数据的描述和定义
    上下位知识: 大熊猫是猫科动物
    属性之间的关系:子女和父母逆关系
    属性的约束:人的父母只有两个
    框架和数据构成完整的知识系统
    知识是认知,图谱是载体,数据是实现

知识图谱发展历程

人工智能:推理、分析、预测、思考
语义网:推理

知识图谱类型

  • 知识的主客观性
  1. 事实性知识:确定性的,不随状态的变化而改变的知识(中国,首都,北京)
  2. 主观性知识:某个人或群体的情感信息
    苹果手机太贵了
  • 知识的变化性质
  1. 静态知识:不随时间,空间的变化而变化 出生日期
  2. 动态知识:随时间、空间的变化而变化 美国总统,上一任是奥巴马,下一任是特朗普事件是动态知识的重要组成部分
  • 按场景分类
  1. 领域知识:领域特有的知识,法律,金融
  2. 百科知识:涵盖各行业、领域的通用知识 ,如人物,机构,地点
  3. 场景知识:某个特定场景下或者需要完成某个任务市需要的知识 如订机票、盖房子等
  4. 语言知识:语言层面的知识,如减肥和瘦身是同义词
  5. 常识知识:大家都认可的知识 如鸟会飞
    举例:
    wordnet:语言知识图谱,由同义词和描述同义词的关系构成
    Hownet:语言认知知识图谱,基于词语义原,揭示词语更小的语义单元的含义。
    cyc和conceptnet:常识知识图谱
    领域知识图谱:电影知识图谱、医学知识图谱

知识图谱生命周期

  1. 知识体系构建
    资源描述框架(RDF)
    • 资源:能够使用RDF表示的对象称之为资源,包括实体、事件和概念等
    • 谓词:描述资源本身的特征和资源之间的关系
    • 陈述:RDF三元组<主体、谓词、宾语>
  2. 知识获取
    • 结构化数据
      表格、数据库
      优点是置信度高,数据质量可靠
      缺点是规模小,不易获得
    • 半结构数据
      不能通过固定的模板直接获得的结构化数据
      优点:置信度高,规模大
      缺点:样式多变,难以用模板获取
    • 非结构化文本数据
      文本信息抽取
      主要任务
      1. 实体识别
        姚明1981年出生在上海
        姚明-》人名
        1981-》时间词
        上海-》地名
        命名实体识别:
        3大类:实体、时间、数字
        7小类:人名、地名、机构名、时间、日期、货币和百分比
        领域实体
      2. 实体消歧
        消除指定实体的歧义
        实体链接:给定文本中的某一个实体指称项链接到已有图谱的某个实体上
        实体聚类:通过聚类的方法消除语料中所有同一实体指称项的歧义
      3. 关系抽取
        按抽取目标的不同,分为:
        • 关系分类
          判别一句话中两个实例之间的语义关系
          比如姚明,上海,判断是否具有出生地的关系
        • 属性抽取
          把这句话中的表达出生地的属性值抽取出来,即上海
        • 关系实例抽取
          判断实体间关系和抽取满足该关系的知识实例数据
          例如上下位关系等
      4. 事件抽取
        从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来
        是发生在某个特定的时间点或者时间段、某个特定的地域范围内,由一个或者多个角色参与的,一个或者多个动作组成的事情或者状态的改变
        因为自然语言表达的歧义性和灵活性,很有挑战
        方法有:
        基于模式匹配的事件抽取
        基于机器学习的事件抽取
  3. 知识融合
    知识融合是对不同来源、不同语言或不同结构的知识进行融合,从而对已有知识图谱进行补充、更新和去重。
    • 知识体系的融合
      两个或多个异构知识体系的融合
      相同类别,属性,关系进行映射
    • 实例级别的融合
      两个不同知识图谱中的实例
      竖直方向的融合
      融合高层通用本体与底层领域本体或实例数据
      水平方向的融合
      融合同层次的知识图谱,形成实例数据的互补
  4. 知识存储
    • rdf:搜索的效率低下,提升效率,使用六重索引
    • 图数据库neo4j:完善的图查询语言,支持大多数的图挖掘算法,缺点是数据更新慢,大节点的处理开销大
  5. 知识推理
    用于补全
    传统逻辑的方法,规则冲突
    表示学习的方法,分布式表示的语义向量相似度计算,缺点是不可解释,缺乏语义约束
    用于自动问答的推理
  6. 知识应用
    • 智能搜索

      • 返回相关的大量信息
      • 用户意图理解
        姚明运动员,搜索返回包含姚明的网页,知识图谱识别查询词的实体和属性,将姚明和运动员关联,得出用户查询的篮球运动员姚明。
    • 自动问答
      实体和关系推理得到答案
      屠呦呦是哪里人?实体:屠呦呦 哪里人(国籍)

    • 推荐
      实体的关系推荐产品
      如战狼2,右侧出现相似产品推荐,通过知识图谱的类型标签推荐的

    • 决策支持
      描述出来,描述知识的演变过程和发展规律,从而为研究和决策提供准确、可追踪、可解释、可推理的知识数据。如,通过对数据的一致性检验识别银行交易中的欺诈行为。

知识图谱与深度学习

深度学习的本质是通过多层神经网络,自动学习处理对象的抽象表示,以便在具体任务中有更好的性能。
基于神经元的深度学习方法把处理对象表示为数值(标量/向量/矩阵),并通过数值计算(数值相乘、开方、乘以非线性函数)完成各种语义计算任务。
局限:
1.依赖大量标注数据
2.不可解释过程不可调控
3.端到端的学习难以加入先验知识

  • 词表示学习
    基于深度学习的自然语言处理方法
  • 知识图谱表示学习
    将知识图谱中的用符号表示的实体和关系投影到低维向量空间中,这种表示体现实体和关系的语义信息
  • 神经符号机
    神经网络与符号相结合的技术
  • 2
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值