数据源和数据类型

各行各业包括政府部门的信息化建设都是封闭式进行,海量数据被封在不同软件系统,数据源多种多样,数据量大、更新快,使得传统的数据采集技术无法满足大数据采集的要求,由此我们通过分析数据源,来了解大数据的类型。

1. 大数据的数据源

数据的来源不同,其数据类型也不同,对数据的采集方法也不同。来自企业的数据,如财务管理信息和业务信息等;来自互联网的数据,如搜索引擎、新闻网站、电商网站等的各种页面信息和用户访问信息;来自社交媒体的数据,如论坛、博客、微博等的数据;还有来自物联网传感器的数据,如智能交通中视频采集、图像采集等数据。尤其是互联网和传感器产生的数据量非常大,传统的数据采集是无法采集大数据的。

数据采集技术广泛应用在各个领域,比如摄像头,麦克风等是数据采集工具,八爪鱼是一款网页数据采集器。

在目前的大数据体系中,由数据源产生的数据类型分为以下几种。

2. 数据源产生的数据类型

由数据源产生的数据类型有:行业数据、业务数据、内容数据、线上行为数据、线下行为数据等五种,如图1-2所示。

(1)业务数据

如企业人员信息、企业财务账目、企业产品销售表、消费者信息汇总等;

(2)内容数据

如微博、博客、讨论站、社交媒体数据、电子文档、日志数据等;

(3)线上行为数据

页面数据、表单数据、交互数据以及反馈数据等;

(4)线下行为数据

用户、车辆、位置和轨迹等。

传统数据数据源为业务数据和行业数据,大数据时代新数据源为业务数据、内容数据、线上行为数据、线下行为数据。

3. 按信息划分的数据类型

在信息社会,按信息划分为两大类。一类是结构化数据,如数字、符号;另一类是非结构化数据,如文本、图像、声音等。结构化数据属于非结构化数据,是非结构化数据的特例。 

在实际应用中,分为结构化数据、半结构化数据、非结构化数据三种类型。

(1)结构化数据

结构化数据类型包括预定义的数据类型、格式和结构的数据,如关系型数据库。行业数据、业务数据属于结构化数据。

(2)半结构化数据

具有可识别的模式并可以解析的文本数据文件,如HTML文档、XML数据文件就属于半结构化数据。

(3)非结构化数据

没有固定结构的数据,信息无法用数字或统一的结构表示,如文本文档、 图片、 视频、声音、各类报表等。如内容数据,线上行为数据、线下行为数据。

结构化数据是先有结构、再有数据;半结构化数据是先有数据,再有结构。

  • 9
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值