各行各业包括政府部门的信息化建设都是封闭式进行,海量数据被封在不同软件系统,数据源多种多样,数据量大、更新快,使得传统的数据采集技术无法满足大数据采集的要求,由此我们通过分析数据源,来了解大数据的类型。
1. 大数据的数据源
数据的来源不同,其数据类型也不同,对数据的采集方法也不同。来自企业的数据,如财务管理信息和业务信息等;来自互联网的数据,如搜索引擎、新闻网站、电商网站等的各种页面信息和用户访问信息;来自社交媒体的数据,如论坛、博客、微博等的数据;还有来自物联网传感器的数据,如智能交通中视频采集、图像采集等数据。尤其是互联网和传感器产生的数据量非常大,传统的数据采集是无法采集大数据的。
数据采集技术广泛应用在各个领域,比如摄像头,麦克风等是数据采集工具,八爪鱼是一款网页数据采集器。
在目前的大数据体系中,由数据源产生的数据类型分为以下几种。
2. 数据源产生的数据类型
由数据源产生的数据类型有:行业数据、业务数据、内容数据、线上行为数据、线下行为数据等五种,如图1-2所示。
(1)业务数据
如企业人员信息、企业财务账目、企业产品销售表、消费者信息汇总等;
(2)内容数据
如微博、博客、讨论站、社交媒体数据、电子文档、日志数据等;
(3)线上行为数据
页面数据、表单数据、交互数据以及反馈数据等;
(4)线下行为数据
用户、车辆、位置和轨迹等。
传统数据数据源为业务数据和行业数据,大数据时代新数据源为业务数据、内容数据、线上行为数据、线下行为数据。
3. 按信息划分的数据类型
在信息社会,按信息划分为两大类。一类是结构化数据,如数字、符号;另一类是非结构化数据,如文本、图像、声音等。结构化数据属于非结构化数据,是非结构化数据的特例。
在实际应用中,分为结构化数据、半结构化数据、非结构化数据三种类型。
(1)结构化数据
结构化数据类型包括预定义的数据类型、格式和结构的数据,如关系型数据库。行业数据、业务数据属于结构化数据。
(2)半结构化数据
具有可识别的模式并可以解析的文本数据文件,如HTML文档、XML数据文件就属于半结构化数据。
(3)非结构化数据
没有固定结构的数据,信息无法用数字或统一的结构表示,如文本文档、 图片、 视频、声音、各类报表等。如内容数据,线上行为数据、线下行为数据。
结构化数据是先有结构、再有数据;半结构化数据是先有数据,再有结构。