目录
1.1 RDF(资源描述框架)Resource Description Framework——概念简述
数据模型是什么,简单的说,就是我们评价一类对象的属性或者维度。比如,一家公司,我们会有他的法人,他的注册资金等等
一、知识表示概述
知识表示主要经历了从一阶谓词逻辑表示、产生式规则、框架表示法、脚本表示法、语义网表示法、知识图谱表示法等几种表示。
1、一阶谓词逻辑(状态空间表示)
一阶谓词逻辑是最早出现的一种形式语言表示形式,是一种形式系统(Formal System),即形式符号推理系统
定义两类谓词:状态、操作
2.产生式系统
产生式规则在一阶谓词逻辑表示的基础上,进一步解决了不确定性知识的表示,
产生式规则以三元组(对象,属性,值)或者(关系,对象1,对象2),通过进一步加入置信度形成四元组(对象,属性,值,置信度)或者(关系,对象1,对象2,置信度)的形式来表示事实,并使用 P->Q 或者 IF P THEN Q 的形式用于表示规则,
这种表示方法可以表示不确定性知识和过程性知识,具有一致性和模块化等优点,
3.框架表示法
把知识的内部结构关系以及知识之间的特殊关系表示出来,并把与某个实体或实体集的相关特性都集中在一起。
框架的定义:
框架是描述对象(一个事物、一个事件、一个概念)属性的一种数据结构。
在框架表示法中,框架被认为是知识表示的最基本单元。 框架是由若干结点和关系(统称为槽slot)构成的网络。是语义网络一般化形式化的一种结构。
优点:框架表示法对于知识的描述非常完整和全面;基于框架的知识库质量非常高;且框架允许数值计算,这一点优于其它知识表示语言。
缺点:框架的构建成本非常高,对知识库的质量要求非常高;框架的表达形式不灵活,很难同其它形式的数据集相互关联使用。
4.语义网络表示
语义网络利用节点和带标记的边结构的有向图描述事件、概念、状况、动作及客体之间的关系。本质上是将逻辑运算符和逻辑项映射到了图中的元素。
语义网络的基本形式为(节点, 弧, 节点2),节点表示各种事物、概念、情况、属性、动作、状态等,每个节点可以带有若干属性,一般用框架或元组表示。此外节点还可以是一个语义子网络,形成一个多层次的嵌套结构。语义网络中的弧表示各种语义联系,指明它所连接的节点间某种语义关系。节点和弧都必须带有标示,来方便区分不同对象以及对象间各种不同的语义联系。
优点:
把各个节点之间的联系以明确、简洁的方式表示出来,是一种直观的表示方法;
着重强调事物间的语义联系,体现了人类思维的联想过程,符合人们表达事物间的关系,因此把自然语言转换成语义网络较为容易;
具有广泛的表示范围和强大的表示能力,用其他形式的表示方法能表达的知识几乎都可以用语义网络来表示;
把事物的属性以及事物间的各种语义联系显示地表示出来,是一种结构化的知识表示法。
缺点:
推理规则不太明了,不能充分保证网络操作所得推论的严格性和有效性;
一旦节点个数太多,网络结构复杂,推理就难以进行;
不便于表达判断性知识与深层知识。
二、知识表示框架(1.1-1.4了解即可)
1.基于语义网的知识表示框架——RDF
1.1 RDF(资源描述框架)Resource Description Framework——概念简述
R:资源(可以是具体的事物也可以是抽象的概念), 每个资源拥有一个统一资源标识符(URI)来标识(允许引入不包含任何URI标识的资源,被称为空白节点或匿名资源,用于表示一种存在变量,空白节点不能用URI来全局处理。为了区分不同的空白节点,RDF解析器会为每个空白节点分配一个系统生成的内部名)
D:标识属性、特征和资源之间的关系(比如父子、包含等),也使用URI来标识。
F:标识模型、语言和这些描述的语法。
陈述:陈述描述了某个资源特定属性及其属性值,表达为(主语S、谓语P、宾语O)的三元组结构(每一份知识都可以分解成3元组形式,知识图谱就是由一条一条知识组成)
RDF图:是一个由RDF三元组构成的集合,可以用一个URI来标识这个RDF图,称为具名图。
1.2 RDF序列化(如何存储和传输RDF数据问题)
RDF序列化的方式主要有:RDF/XML,N-Triples,Turtle,RDFa,JSON-LD等几种
①RDF/XML:用XML的格式来表示RDF数据
②N-Triples:用多个三元组来表示RDF数据集,是最直观的表示方法。在文件中,每一行表示一个三元组,方便机器解析和处理
③Turtle:比RDF/XML紧凑,且可读性比N-Triples好
1.3 RDF Schema(RDFS)
RDFS在RDF的基础上提供了一个术语、概念的定义方式,以及那些属性可以应用到哪些对象上。即,RDFS为RDF模型提供了一个基本的类型系统。
举例:
上述三元组表示用户自定义的元数据Author是Dublin Core的元数据Creator的子类。RDF Schema正是通过这样的方式来描述不同词汇集的元数据之间的关系,从而为网络上统一格式的元数据交换打下基础。
另外,RDFS支持推理功能
1.4 OWL和OWL2
1.4.1 OWL Web本体语言(OWL Web Ontology Language)
两个主要的功能: 1. 提供快速、灵活的数据建模能力。 2. 高效的自动推理。
(通过RDF(S)可以表达一些简单的语义,但在更复杂的场景下,RDF(S)语义表达能力显得太弱,还缺少诸多常用的特征。包括对局部值域的属性定义,类、属性、个体的等价性,不相交类的定义,基数约束,关于属性特征的描述等。因此W3C提出了OWL语言扩展RDF(S),作为语义网上表示本体的推荐语言。)
1.4.2 联系与区别:
OWL Full可以看成是RDF的扩展;
OWL Lite和OWL Full可以看成是一个约束化的RDF的扩展;
所有的OWL文档 (Lite,DL,Full)都是一个RDF文档;
所有的RDF文档都是一个OWL Full文档;只有一些RDF文档是一个合法的OWL Lite和OWL DL文档。
1.5 知识图谱
与语义网不同,知识图谱不太专注于对知识框架的定义,而是从工程的角度上去处理知识问题,着重处理从文本中自动抽取或者依靠众包方式获取知识三元组。
狭义上,知识图谱指具有图结构的三元组知识库,内部包括实体,实体属性,以及实体之间的关系三类事实,知识图谱本身是一个有向图,实体作为知识图谱的节点,事实作为知识图谱的边,方向由头实体指向尾部实体,边是实体之间的关系。
常用的图谱数据库:neo4j、jena、阿里GraphDB
1.6 RDF查询语言——SPARQL
SPARQL基于RDF数据模型,可以对不同的数据集撰写复杂的连接(join操作),同时还被所有主流的图数据库支持。
1.6.1 语法简介
prefix declarations:(前缀声明)为了缩写URL
From是要选取一个数据库(非table)或者选取一张“图”结构
下面的:select、where、order by就是很熟悉的SQL形式。(同理 可以使用嵌套查询等查询)
从语法上结构上来看,SPARQL和SQL语言还是有一定的相似性的。
比较重要的区别有:
(1)变量,RDF中的资源,以“?”或者“$”指示;
(2)三元组模板 (triple pattern), 在WHERE子句中列示关联的三元组模板,之所以称之为模板,因为三元组中允许变量;
(3)SELECT子句中指示要查询的目标变量
1.6.2 示例
查询学生姓名、选修课程,以及他们的年龄;若有年龄,则年龄必须大于25岁。
##命名空间声明
PREFIX exp:http://www.example.org/
SELECT ?module ?name ?age
WHERE {
?student exp:studies ?module .
?student foaf:name ?name .
OPTIONAL {
?student exp:age ?age .
FILTER(?age>25)}
}
三、数据模型设计方法
在以往的数据仓库BI或知识图谱项目中,数据模型的方法论、概念通常大多围绕如何设计和建设知识图谱,而应用系统(OLTP系统)模型设计却缺乏方法论的指导,加之各应用系统通常都是由不同厂商在不同时期自行设计开发,彼此之间缺乏沟通,导致数据分散重复、口径不一致和数据兼容性差。
1、模型结构
企业级数据模型可分解为三个层级:主题域模型、概念模型和逻辑模型。三个层次模型逐级扩展。
1.1 主题域模型
概述:
企业主题域模型在企业级数据模型中处于第一层次,其覆盖原则是“有需求才覆盖”,一个企业的平均主题域数量通常在10~20之间。
内涵:
主题(Subject)是在较高层次上将企业的数据进行综合、归类和分析利用的抽象概念,每一个主题通常对应一个宏观的业务分析领域。
主题域是对某个主题进行分析后确定的主题边界。典型的主题域包括参与人、产品、协议等。
主题域模型处于企业级数据模型的顶层,是针对企业关键业务领域、业务概念的分类方法和框架。
特征:
实际上凝聚了企业内部中高层管理者的共识
主题域模型的价值在于企业内部对业务的理解深度,以及体现企业内部各方达成的协议。
1.2 概念模型
概述:
企业概念模型在企业级数据模型中处于第二层次,将每个主题域进一步细分为“概念”,通常每个主题域包括10~20个“概念”。企业概念模型由概念以及概念之间的关联关系组成。
内涵:
“概念”是对主题域、主题域范围的进一步定义和细化 ;
“概念”描述了企业生产和消费的核心业务信息,独立于具体的实现问题和细节 ;
“概念”应基于企业的主要业务,应由企业主要业务驱动“概念”定义;
“概念”的要点在于表现企业重要的业务视角,而不是数据量的大小;
“概念”还需考虑行业的适用性,如包括供应商、合作伙伴以及外部引用数据的概念。
特征:
概念模型是一种高阶数据模型,以实体—关系(Entity-RelationShip,简称E-R)理论为基础,通过主题域形式描述概念化的结构;
概念模型是对主题域模型的进一步细化。
概念模型定义了企业内主要业务实体及实体间的业务关系。
概念模型不描述业务实体的数据属性
1.3 逻辑模型
概述:
企业逻辑模型在企业级数据模型中处于第三层次,并将每个概念进一步细分为“逻辑实体”。企业逻辑模型由逻辑实体、业务主键、关联关系和重要属性组成。
逻辑模型独立于具体技术,是IT人员和业务人员沟通的工具
特征
逻辑模型是对概念模型的进一步分解和细化 ,通过关键数据属性描述更多业务细节
逻辑模型描述实体、属性以及实体关系
逻辑模型只包含关键数据属性,而不是全部实体和全部属性。关键数据属性是指那些如果缺失而导致企业无法正常运转的属性,但这种判断通常是非常主观的决定。
设计时一般遵从“第三范式”
(第三范式:①主键是唯一的,不具有多义性 ;②每个非主属性必须完全依赖于整个主键,而非主键的一部分 ;③关系模式中不存在传递依赖 。)
2. 模型设计方法
模型设计可采用“业务需求驱动自顶向下”和“基于现状驱动自底向上”相结合模式,参照业界参考模型、行业最佳实践,共同形成数据模型。从业务需求驱动入手自顶向下,参照业界参考模型、行业最佳实践搭建数据模型整体框架
通过现状调研获取企业内部业务流程、设计文档、系统模型、接口规范等现状信息,现状驱动自底向上,细化和完善数据模型的设计。
企业级数据模型设计总体可分为四个步骤:前期准备、主题域模型设计、概念模型设计、逻辑模型设计。
2.1 数据主题域模型设计要点——前期准备
在企业内部,涉及多个业务部门,对于一个业务问题通常会有多个不同的观点和看法,每个相关人员需要理解和沟通各自的观点和看法。为了阐明和沟通我们的观点,我们需要理顺企业内部所有核心术语定义以及术语定义的关系,形成一个精确的和公认的术语词典表。因此,在构建企业级数据模型之前,需要在企业范围内统一业务术语,在后续建模过程中给相关人员提供一个沟通的基础。
2.2 数据主题域模型设计要点——主题域模型设计
主题域模型设计中,对于企业一级主题域的划分,并不是一定要按照本企业的主营业务分类作为划分依据,而是从数据模型知识更容易传播、共享的角度,参照本行业参考模型进行一级主题域划分,这样更利于吸收企业外部视角、整合行业数据。
2.3 数据主题域模型设计要点——概念模型设计
概念模型设计需要业务领域专家的深度参与和业务负责人的亲临指导,模型成果才能紧贴企业实际需要,符合企业要求。业界参考模型和行业最佳实践,都只是参照物,业务需求才是模型设计工作的主要驱动力。通过业务领域专家的深度参与,才能获知本企业在该业务领域最关注的核心概念及分类,才能梳理出核心概念及分类之间的关联关系。业务负责人则是对设计成果的进一步完善和确认。
2.4 数据主题域模型设计要点——逻辑模型设计
逻辑模型涉及到业务细节问题,同样离不开业务人员的深度参与。需要着重指出的是,逻辑模型是一种通用模型,模型设计师在面对大量的数据库设计文档、系统模型、接口规范时,应根据设计经验提炼出所需要的主要实体、关键属性、业务规则,以便对概念模型进行进一步细化和分解。
企业级数据模型的建设不是一劳永逸的,需要持续不断的进行维护和改进。模型成果交付以后,并非静止不动,而是需要由专人持续不断的改进和完善。
2.5 数据主题域模型设计要点
设计依据:
立足需求和现状。基于企业业务整体发展的需求以及行业监管要求,在企业范围内开展业务调研、信息调研获取企业的当前现状信息,作为主题域模型设计的输入信息。
行业最佳实践。借鉴国际、国内本行业相关企业的实践经验以及相关工作成果。了解相关企业在数据建模过程中所取得的成就和经验教训,确保企业在建模过程中少走弯路。
业界理论支撑。参考业界通用数据模型设计思路,推动业界参考模型产品的客户化处理。通常,每个行业都会有本行业的参考模型,例如:金融行业典型的参考模型包括TD FS-LDM和IBM FSDM模型;通信行业典型参考模型包括NGOSS-SID模型。
关键要点
设计过程需要整个企业内部各个部门的广泛参与 ,有助于形成合力、达成共识。
业务专家的深度参与和亲临指导,有助于识别、理解组织架构和业务功能;
主题域的定义和命名过程很重要,它有助于覆盖企业的重要业务主题,避免重大遗漏;
主题域名称应该清晰、简洁、易于理解 ;
四、金融企业数据模型设计
1.通用金融行业主题域模型
2.通用金融行业概念模型
(1)当事人
当事人是金融企业的所有业务参与对象,是具有独立行为能力,并且对某个行为负责的任意类型的实体,如一个人、一家企业或一家企业的某个部门。当事人实体定义了当事人的本质特性,该实体与职务和角色无关,这些特性是不会随时间发生变化的。
在金融企业风险领域,当事人作为金融企业,还包含了企业信息,企业信息,企业知识产权等要素。
法律实体:是由政府、法律或制定规章的权威机构在法律上认可的当事人, 在从事商业活动时,具有法律权利和责任。法律实体又可分为法人实体和代表实 体。代表实体是代表法人实体的法律实体,如银行的分行等。法律实体有别于个 体,虽然个体也可以具备法律属性,但不需要任何形式的法定组织或编制。
政治实体:该实体有指定的执行法律的权利或是被其他政治实体组赋予的权 利。可以是拥有直接权利的政府,如国家政府,省政府和市政府;或者是一个作 为政府代理的行政管理机构;或者是由多个政府联合组成的政治联盟,如欧盟。
群体:是一个为了特殊的目的由多个当事人构成并且将他们视为单一实体的 组织。
个体:就是一个有姓名,具有一定权利并能够承担一定责任的个人。当事人 的一种,银行客户的重要组成部分。包括公民,投资和消费个体,ModelBank 个 体。
组织机构:本质上是银行内部的管理机构,其作用是系统地控制有明确职责 的业务单元,以支持银行的运行和管理
(2)组织机构
组织机构就是用来描述当事人内部的管理结构,组织机构包含许多业务单 元,每个业务单元执行指定的作业。业务单元是组织机构的组成部分,为了支持 机构的业务目标,对其指定了任务或责任,并覆盖一个或多个管理维度。
(3)客户
客户 角色包括买主、债务人、信用客户和行业信用客户。买主子类型代表从市场和销 售的角度定义的客户,债务人和信用客户子类型代表从信贷风险管理角度定义的 客户等。信用客户有可能是行业信用客户和债务人,行业信用客户也有可能是债 务人。
(4)产品
通俗的产品定义,产品是一种可销售的物品,因而模型将产品定义为适 销产品,即可以按照约定的条件以某种价格向买主进行推销和出售的事物,商业保险就是一种典型的适销产品实例。
(5)产品特征
产品特征用来表现产品与特征之间的关系。产品的特征有时效性,如某种产 品在某一个时间段是一种利率,在别的时间段又是另外一种利率。产品特征可以 是银行提供的一种服务、特殊的报表、特殊的会计类型、期权帐户、可操作或管 理的功能等等,包括如何使用和销售该产品,以及它的基本性质,如价格和有效 期。正是这些产品特征使得客户能够从该适销产品中受益。
(6)协议
协议是条款和条件的集合,管理者两个当事人(例如,一个客户和金融企业)之 间的关系,指明两个当事人以后怎样从事交易。协议是银行的业务单元和订约方 之间针对银行产品而产生的协议或安排,银行的财务记录都是通过协议中的相关 约定来创建的。在产品的销售过程中,银行为产品规定一定的约定与条款,通过 一个或多个产品交付协议或约定进行产品的销售,并且客户在获取产品时需要一 定的资格要求,如产品的手续费、期限、允许的展期和提前通知的要求等。
(7)交易
执行交易是与执行某一块业务相关的所有事件的完整记录,涉及与执行相关 的所有消息,并把具体的业务约定与所执行的行为相对应。执行交易是由一个客 户发起的,通常由一特定的外部机构单元承担这一角色。财务交易是由执行交易 引起的,从业务上讲它仅仅依赖于执行交易。财务交易只是一种映射技术,它把 与执行交易相关的部分信息映射到已生成的财务记录,财务交易通过创建会计分录来完成这个映射。
3.通用模型套用方法
待补充