项目一 大数据时代
大数据定义:
所谓大数据( Big Data ),或称巨量资料,指的是“所涉及的资料量规模巨大到无法通过
目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更
积极目的的技术资讯。”
大数据核心特征:
(1)数量大( Volume )
(2)种类多( Variety )
(3)速度快( Velocity )
(4)价值量太( Value )
(5)真实性( Veracity )
大数据体系架构
大数据的核心技术分为数据采集、蜀统计分析和数据可视化。
(1)数据采集
移动互联网、社交网络等每天产生的各种数据表面看并没有什么意义,而且既有结构化的,又有归类、整合出有用的数据才有实际意义,这就是数据通过爬虫工具、 ETL 工具等获取,然后经过清洗数据集市中,再综合起来进行分析。数据采集包招系型数据库的接入和应用程序的接入等。
(2)数据预处理
数据预处理是指对采集后的数据进行主要处法,有数据清理、数据集成、数据变换及数据归用,大大提高了数据挖掘模式的质量,降低了实际挖掘的时间
(3)数据存储
由于海量的数据存储在一台机器显然行不通机器。因此数据存储涉及分布式文件系统和分布式数据库
(4)数据清洗
数据清洗是过滤掉那些不符合要求的数据。错误的数据或者是重复的数据。通常使用 Mapl 后续进行统计分析。
(5)数据统计分析
使用 Hive 对清洗后的数据进行统计分析。 Hive 的工作核心就是把 SQL 语句翻译成 MapReduce 程序,可以