引言:本文旨在记录本人学习Hadoop时的笔记心得
大数据导论
企业数据分析方向
数据分析在企业日常经营分析中主要有三大方向:
- 原因分析(分析过去数据):某一现状为什么发生,确定原因,做出调整优化
- 现状分析(分析当下数据):现阶段的整体情况,各个部分的构成占比、发展、变动等
- 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势
原因分析:
离线分析( Batch Processing)
面向过去,面向历史,分析已有数据
在时间维度明显呈批次性变化。一周一分析,一天一分析,所以也叫批处理
现状分析:
实时分析(Real Time Processing)
面向当下,分析实时产生的数据
所谓实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级与毫秒级
预测分析:
机器学习(Machine Learning)
基于历史数据和当下产生的实时数据预测未来发生的事
侧重于数学算法的应用,如分类、聚类、关联、规则
数据分析基本步骤
1.明确分析目的和思路
- 目的是整个分析流程的起点,为数据的收集处理和分析提供清晰的指引方向
- 思路是使分析框架体系化,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论支撑
- 数据分析方法论包括用户行为理论,PEST分析法,5W2H分析法等
2.数据收集
- 从无到有:如传感器收集气象数据
- 传输搬运:业务数据(RDBMS),日志数据(服务器、应用日志),爬虫数据(爬虫数据库),互联网公开数据(行业、政府网站)
3.数据预处理
- 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要步骤有:数据清洗,数据转化,数据提取,数据计算等
- 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据(格式清晰,利于解读)
4.数据分析
- 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程
5.数据可视化
- 用图表展示分析结果
注:数据分析的结果不只是可视化,还可以继续数据挖掘,即席查询(Ad Hoc)等
6.报告撰写
- 数据分析报告是对整个数据分析过程的一个总结与呈现
- 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
- 需要有明确的结论,最好有建议或解决方案
大数据5V特征
Volume-数据体量大
- 采集数据量大
- 存储数据量大
- 计算数据量大
- TB、PB级别起步
Variety-种类、来源多样化
- 种类:结构化、半结构化、非结构化
- 来源:日志文本、图片、音频、视频
Value-低价值密度
- 信息海量但价值密度低
- 深度复杂的挖掘分析需要机器学习算法参与
Velocity-速度快
- 数据增长速度快
- 获取数据速度快
- 数据处理速度快
Veracity-准确
- 数据准确性
- 数据可信度