大数据的概念和特性

一 大数据的概念
大数据指的是传统数据处理应用软件,不足以处理(存储和计算)它们,大而复杂的数据集。

可以理解 为一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库,软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低。

总而言之,大数据就是指数据很大,传统技术无法高效的处理该数据。

二 大数据的四大特性
大数据的特征

简称4V:Volume(规模性),Variety(多样性),Velocity(高速性),Value(价值性
(1) 大量:数据容量大。从TB级别,跃升到PB级别。 海量的数据,可谓是数据的海洋。

(2) 多样:数据类型的多样性,包括文本,图片,视频,音频。 相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等。

(3)高速:指获得数据的速度以及处理数据的速度,数据的产生呈指数式爆炸式增长,处理数据要求的延时越来越低。

(4) 价值密度低:价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,会产生大量的数据,但是有用数据可能仅有一二秒。

三 大数据 整体技术
一般而言,大数据处理流程,我们可分为四步骤:数据采集、数据导入和清洗处理、数据统计分析和挖掘、结果可视化。
数据采集:
大数据的采集一般采用ETL (Extract-Transform-Load )工具负责将分布的、异构数据源中的数据如关系数据、平面数据以及其他非结构化数据等抽取到临时文件或数据库中。
2、数据清洗和预处理:
采集好数据,肯定不少是重复或是无用的数据,此时需要对数据进行简单的清洗和预处理,使得不同来源的数据整合成一致的,适合数据分析算法和工具读取的数据,如数据去重、异常处理和数据归一化等,然后将这些数据存到大型分布式数据库或者分布式存储集群中。
3、数据统计分析和挖掘:
统计分析需要用到工具来处理,比如SPSS工具、一些结构算法模型,进行分类汇总以满足各种数据分析需求。
4、结果可视化:
大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

消失在人海中

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值