一 大数据的概念
大数据指的是传统数据处理应用软件,不足以处理(存储和计算)它们,大而复杂的数据集。
可以理解 为一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库,软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低。
总而言之,大数据就是指数据很大,传统技术无法高效的处理该数据。
二 大数据的四大特性
大数据的特征
简称4V:Volume(规模性),Variety(多样性),Velocity(高速性),Value(价值性
(1) 大量:数据容量大。从TB级别,跃升到PB级别。 海量的数据,可谓是数据的海洋。
(2) 多样:数据类型的多样性,包括文本,图片,视频,音频。 相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等。
(3)高速:指获得数据的速度以及处理数据的速度,数据的产生呈指数式爆炸式增长,处理数据要求的延时越来越低。
(4) 价值密度低:价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,会产生大量的数据,但是有用数据可能仅有一二秒。
三 大数据 整体技术
一般而言,大数据处理流程,我们可分为四步骤:数据采集、数据导入和清洗处理、数据统计分析和挖掘、结果可视化。
数据采集:
大数据的采集一般采用ETL (Extract-Transform-Load )工具负责将分布的、异构数据源中的数据如关系数据、平面数据以及其他非结构化数据等抽取到临时文件或数据库中。
2、数据清洗和预处理:
采集好数据,肯定不少是重复或是无用的数据,此时需要对数据进行简单的清洗和预处理,使得不同来源的数据整合成一致的,适合数据分析算法和工具读取的数据,如数据去重、异常处理和数据归一化等,然后将这些数据存到大型分布式数据库或者分布式存储集群中。
3、数据统计分析和挖掘:
统计分析需要用到工具来处理,比如SPSS工具、一些结构算法模型,进行分类汇总以满足各种数据分析需求。
4、结果可视化:
大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。