数据集
一个数据的集和,每一行是一条数据记录,每一列是一个字段。
我们把表中的每一行叫做一个“记录”,每一个记录包含这行中的所有信息,就像在通讯录数据库中某个人全部的信息。字段是比记录更小的单位,字段集合组成记录。个字段包含某一专题的信息。就像“通讯录”数据库中,“姓名”、“联系电话”这些都是表中所有行共有的属性,所以把这些列称为“姓名”字段和“联系电话”字段。
数据集是动态虚拟的存在。比如,基于上述的员工表,以及一个工资发放表(员工ID,日期,金额),可以构成一个“员工工资发放”的数据集,包括字段:员工姓名、发放日期、金额。这个数据集,并没有在某一处持续存在,而只是在要使用它时,根据数据集的定义,临时去员工表、工资发放表中取得相应的物理存在的数据,生成这个数据集的数据。生成的数据,会临时放在某处(往往在内存中),但数据集使用结束,临时生成的数据就被清除了,但原来数据表中的数据并不受影响。
数据集是原始数据进行一定的计算处理后生成的临时数据结果。
结构化数据:信息能够用数据或统一的结构加以表示,如数字,符号。非结构化数据:一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等。结构化数据属于非结构化数据。
google 的dataset(数据集)搜索引擎j:对多方面的数据集进行整合,为用户提供了能够同时搜索多个存储区的单个界面。Noy 和 Brickley 写道,为了帮助搜索引擎索引现有数据集,拥有数据集的人应该使用一个叫作 Schema.org 的标准化词汇表来「标记」数据集,Schema.org 是谷歌和另外三个搜索引擎巨头(微软、雅虎和 Yandex)一起发起的项目,由 Brickley 管理。 https://mp.weixin.qq.com/s?src=11×tamp=1537618454&ver=1138&signature=rqfHwD0oTZGMCf2eeMgf4i54CGxtB9zLnKZLZAr1*SLzHrJdHj8H*d5cagcwj-EIPeQmgE654DJo93NRZC6xfWjdXN5W*5nEPPl4Ry5S6aQARvAqqluRPJLMSJc*Jjj*&new=1