知识元与知识本体

  1. 元数据(Metadata)就是“关于数据的数据”,是对数据进行组织和处理的基础。元数据法就是对信息单元及其集合进行规范描述从而形成元数据,并依其将分布式的信息资源整合成有机信息体系的基准、方法和工具。
  2. 主题词表:也称叙词表。它是一种由概括一门或各个学科领域的经规范化处理的语义相关和族性相关的词或词组,按特定顺序排列所形成的后组式检索词典,是一种将标引人员和检索人员的自然语言转换成规范化检索语言的术语控制工具。
  3. 本体(Ontology):是领域概念及概念之间关系的规范化描述,这种描述是规范的、明确的、形式化的,可共享的

主题词表与本体相似之处

作用 :两者用来描述特定领域的学科知识,都可以用作特定学科知识的组织工具。
内容 :两者都包含词(概念、类)及词(概念、类)间关系。
结构 :两者都具有等级结构,并通过等级关系及词(概念、类)间关系将词(概念、类)组织起来。
更新: 两者都需要维护以及不断地修订。

主题词表与本体不同之处

词表 本体
词间关系 宽泛和模糊 规范的、明确的、形式化的
组成要素 叙词及词间关系 概念、概念间关系、实例、函数和公理
逻辑表达 规范的词或词组 包含自然语言和半自然语言
组织结构 线性的、一维的 网状的
形式化 非机器理解 机器可理解

在这里插入图片描述

标准下载地址

参考知乎:https://www.zhihu.com/question/58535860

元数据补充

元数据是关于数据的数据,在某些时候不特指某个单独的数据,可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映了某个数据的某方面特征,则该信息组/数据组可称为一个元数据。
元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。

在日常生活中,元数据无所不在。只要有一类事物,就可以定义一套元数据。

举个例子:在电影数据库IMDB上可以查到每一部电影的信息。IMDB本身也定义了一套元数据,用来描述每一部电影。下面是它的一级元数据,每一级下面又列出了二级元数据,总共加起来,可以从100多个方面刻画一部电影:

Cast and Crew(演职人员)、Company Credits(相关公司)、Basic Data(基本情况)、Plot & Quotes(情节和引语)、Fun Stuff(趣味信息)、Links to Other Sites(外部链接)、Box Office and Business(票房和商业开发)、Technical Info(技术信息)、Literature(书面内容)、Other Data(其他信息)。

元数据最大的好处是,它使信息的描述和分类可以实现结构化,从而为机器处理创造了可能

http://zh.wikipedia.org/wiki/%E5%85%83%E6%95%B0%E6%8D%AE 元数据(Metadata),又称元数据、中介数据[来源请求]、中继数据[来源请求],为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。

http://zh.wikipedia.org/wiki/%E6%9C%AC%E4%BD%93_(%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6) 在计算机科学与信息科学领域,理论上,本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”[1]。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系[2];或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品(artifacts)。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。此外,有时人们也会将“本体”称为“本体论”。

http://zh.wikipedia.org/wiki/Google%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1 Google知识图谱(英语:Google Knowledge Graph,也称Google知识图)是Google的一个知识库,其使用语义检索从多种来源收集信息,以提高Google搜索的质量。知识图谱2012年加入Google搜索,2012年5月16日正式发布[1],首先可在美国使用。知识图谱除了显示其他网站的链接列表,还提供结构化及详细的关于主题的信息。其目标是,用户将能够使用此功能提供的信息来解决他们查询的问题,而不必导航到其他网站并自己汇总信息。

拿西瓜摊打个比方。每个西瓜的卖出的价钱记录到一个账本里,那就是数据。 每个西瓜什么时候被谁(年纪多大,是男是女…)买的,这个是元数据(卖西瓜的用不着关心)。 西瓜,人,时间这些在数据和元数据里提到概念,是本体中的词汇集的一员,而且,一旦知道某个测量数据是时间或性别,就可以根据概念相关的语义推理了,例如某年买瓜的男性比例有多少。此外,本体通常还要说该念之间的关系,例如西瓜是水果的一种。另外,西瓜的营养参数(维基百科 http://en.wikipedia.org/wiki/Watermelon,FDA的营养参数 http://www.fda.gov/Food/IngredientsPackagingLabeling/LabelingNutrition/ucm063482.htm) 算是概念的结构化属性数据,通常会记录在知识图谱中。

Google知识图谱是知识图谱的一个狭义概念,主要是用于优化查询结果展示的(查询结果相关的结构化数据:例如 网站的常见子网页,维基百科的条目说明,旅馆的推荐指数)。常见的广义的知识图谱应该 实体关系图,每个实体都有一些属性,实体之间又有关系。可以说知识图谱是本体的一个特定应用形式,侧重事实(即实体描述和实体关联),而不过分强调抽象逻辑推理的那一面。

我自己的理解

元数据是对数据的数据的一种描述,比如电影这一信息,就包括电影上映时间、观影人数、上映地点、主演、评价等等,但这些数据之间是无关联的,也就是只围绕一个物体做的描述,比如它的属性等信息,但是,本体是对概念和关系做描述,它是一个网状结构,可以建模彼此之间的联系。

工具

PDF转word:https://www.camscanner.com/pdftoword
图片转文字:https://web.baimiaoapp.com/

本体建模方法

斯坦福大学医学院开发的七步法

主要用于领域本体的构建。七个步骤分别是: ① 确定本体的专业领域和范畴;② 考查复用现有本体的可能性;③ 列出本体中的重要术语;④ 定义类和类的等级体系(完善等级体系可行的方法有:自顶向下法、自低向上法和综合法);⑤ 定义类的属性;⑥ 定义属性的分面;⑦ 创建实例。

作者:美环花子若野
链接:https://www.jianshu.com/p/a50d9bf3ceeb
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

骨架法

五步法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值