1.结构化数据
结构化数据指的是具有明确的、预定义的数据模型,遵循一致顺序的数据。最为常见的结构化数据是关系型数据库中的数据。
结构化数据有三大特征,同时满足这三个特征的,可以称之为结构化数据。
(1)有明确的含义(2)有严格、一致的顺序 (3)有明确的数据类型
2.非结构化数据
非结构化数据指的是没有预定义的数据模型,数据结构不规则或者不完整的数据。最为常见的非结构化数据是文档、图片、视频等。
3.半结构化数据
半结构化数据是指介于结构化数据和非结构化数据之间,具有一定的结构化特征,但不完全符合结构化特征的数据。
最为常见的半结构化数据包括日志文件、XML 文档、JSON 文档、Email、HTML文档等。
(1)数据结构带有自描述性;
数据中包含了对数据结构的描述信息,例如数据含义、数据类型等信息;
(2)结构与数据往往融合在一起;
在数据中既有描述结构的数据,又含有实际的数据,体现出结构与数据紧耦合的特征。
结构化数据可以通过固有键值获取相应信息,且数据的格式固定,如RDBMS data半结构化数据可以通过灵活的键值调整获取相应信息,且数据的格式不固定,如json,同一键值下存储的信息可能是数值型的,可能是文本型的,也可能是字典或者列表非结构化数据不可以通过键值获取相应信息。
在信息社会,信息可以划分为两大类:
信息能够用数据或统一的结构加以表示,称之为结构化数据;
信息无法用数字或统一的结构表示,称之为非结构化数据。
结构化、半结构化、非结构化其实是按照数据格式分类。结构化数据属于非结构化数据,是非结构化数据的特例。结构化与半结构化数据都是有基本固定结构模式的数据半结构与非结构化数据与目前流行的大数据之间只是有领域重叠的关系,本质讲两者并无必然联系。业界有将大数据认为半结构/非结构化数据,是因为大数据技术最初是在半结构化数据领域发挥作用,其本质是将数据处理技术与数据格式混淆,是不正确的。