前段时间刚考完软考的信息系统项目管理师,下午的案例分析中考了一道数字化城市管理项目的案例题,其中问题2:什么是数据元,制定数据元的标准,应遵循那些过程?
于是我想着整理一篇关于数据元和元数据的文章便于自己理解和大家交流下关于数据元的一些问题。
首先我们来先看一个例子,初步了解下什么是数据元和元数据:
以一个学生登记表单为例,表单中包含学生基本信息,姓名、学号、班级,对于这个表单,假如我们在数据库中对这个表进行存储。
学生基本信息表 | ||||
姓名 | 学号 | 班级 | 年龄 | 出生日期 |
张三 | 2023060125 | 1班 | 18 | 2003年5月 |
李四 | 2023060125 | 1班 | 17 | 2004年6月 |
那么数据元和元数据都有哪些呢?
- 比如,针对学生这个数据,在学生基础信息表上,姓名、学号、班级是描述学生基础信息的数据,是它的元数据;同样,对学生选课信息表而言,课程编号、名称、学分是描述学生选课信息表的数据,是它的元数据。
那么我们大概理解:元数据就是对数据进行描述,即数据的数据,后一个数据是指被描述的信息资源,前一个数据则是指为理解该信息资源而存储的有关信息。
接下来就会出现疑问了,那么数据的数据也会有对应的信息描述吧,那是否也可以视作为元数据呢?答案是对的,即元数据也是数据,当数据以该种方式使用时,即为元数据。
- 比如 姓名、学号、班级、课程、学分都是数据,这些数据有自己的元数据,数据库中会对每一个数据都进行描述,例如数据长度、数据类型、值域等内容。
在上面的例子里,我们是将学生的基础信息表存放在数据库,数据库需要对每一项存放的内容进行描述,即对表中的某个字段,比如“学号”数据库中会对它的据长度、数据类型、值域等内容进行描述,我们需要给这些数据加一个限制条件,即只有在一定的语境中(特定环境下、特定目的或特定角度),数据才能称为元数据。
我们对上面的信息综合,可以得出以下定义:
元数据简单可理解为“关于数据的数据(Data about Data)”。
- 后一个Data是指被描述的信息资源,前一个Data则是指为理解该信息资源而存储的有关信息。
- 元数据也是数据,当数据以该种方式使用时,即为元数据;
- 只有在一定的语境中(特定环境下、特定目的或特定角度),数据才能称为元数据。
在GB/T 18391/ISO/IEC11179《信息技术元数据注册系统》对元数据(Metadata)的定义是“定义和描述其他数据的数据”
那么说了这么多,数据元有啥用处呢?
我认为有以下几点:
1、对信息资源进行描述,可以让我们详细的了解到信息资源的主题、内容、属性、特点等,这也是它最基本的作用;
2、通过对信息资源的描述更快的检索到所需的信息
3、通过元数据更快的帮助选择信息、更块的定位以及管理信息,更好的对信息资源进行评估
元数据已经写了这么多了,稍微有点长,这里分下段落,只想了解元数据的老板可以走了,接下来我们来了解下数据元:
先看数据元的定义,《GB/T19488.1电子政务数据元第1部分:设计和管理规范》里是这样定义的:
数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。
学生基本信息表 | ||||
姓名 | 学号 | 班级 | 年龄 | 出生日期 |
张三 | 2023060125 | 1班 | 18 | 2003年5月 |
李四 | 2023060125 | 1班 | 17 | 2004年6月 |
再拿我们刚才的学生基础信息表来说,学生张三的年龄为18,年龄就是我们通常意义所说的数据元,而18就是这个数据元的值。
数据元一般分为三个部分:分别是:对象类、特性、表示。
那么我们如何来理解这几个特性呢,还是借用刚才的例子:
学生张三的年龄是18岁
在这句话里
数据元的对象是“学生张三”,数据元的特性是指“年龄”,数据元的表示是指“18”
数据元可以理解为数据的基本单元,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型
例如我们这张表中所有关于张三的数据按照顺序进行组合,这个整体的结构就是一个数据模型
姓名:张三
学号:2023060125
班级:1班
年龄:18
出生日期:2023年5月
上面这个信息就是某学校,学生基本信息的一个数据模型
那我们再找一个标准的数据模型来看一下,下图为身份证类型的一个数据模型
那么通过对组织中核心数据元的标准化,可以使数据的拥有者和使用者对数据有一致的理解。
其实目前行业的数据元都有一个标准规范,用于对数据的拥有者和使用者对数据有一致的理解,例如下图就是对全国组织、干部、人事管理信息的一个国家标准的定义:
如果有兴趣的话可以去网上搜索一下这类信息。
那么我们最后来总结下上文的所有内容:
数据元:
GB/T 18391(ISO/IEC 11179)中,有一组属性规定其定义、标识、表示和允许值的数据单元,也称为数据元素。在一定语境下,构建一个语义正确、独立且无歧义的特定概念语义的信息单元,同时可理解为数据的基本单元。一个数据元由数据元概念和表示组成。
数据元概念:数据概念是能以一个数据元的形式表示的概念,其描述与任何特定表示法无关。一个数据元概念由以下两部分组成:
a. 对象类:可以对其界限和含义进行明确的标识,且特性和行为遵循相同规则的观念、抽象概念或现实世界中事物的集合;
b. 特性:一个对象类所有成员所共有的特性。
表示:由值域、数据类型、计量单位、表示类型(可选)组成。
元数据
元数据简单可理解为“关于数据的数据(Data about Data)”。
- 后一个Data是指被描述的信息资源,前一个Data则是指为理解该信息资源而存储的有关信息。
- 元数据也是数据,当数据以该种方式使用时,即为元数据;
- 只有在一定的语境中(特定环境下、特定目的或特定角度),数据才能称为元数据。
在GB/T 18391/ISO/IEC11179《信息技术元数据注册系统》对元数据(Metadata)的定义是“定义和描述其他数据的数据”
元数据在网络信息资源组织方面的作用可以概括在以后六个方面:描述、检索、选择、定位、管理和评估。
软考的案例分析这个题目完全没答上来。。记录下答案,没有答对的大家一块哭一哭吧(ಥ﹏ಥ)
制定数据元的标准,应遵循那些过程?