Hadoop学习笔记(一):大数据导论

引言:本文旨在记录本人学习Hadoop时的笔记心得


大数据导论

企业数据分析方向

数据分析在企业日常经营分析中主要有三大方向:

  • 原因分析(分析过去数据):某一现状为什么发生,确定原因,做出调整优化
  • 现状分析(分析当下数据):现阶段的整体情况,各个部分的构成占比、发展、变动等
  • 预测分析(结合数据预测未来):结合已有数据预测未来发展趋势                

原因分析:

        离线分析( Batch Processing)

                面向过去,面向历史,分析已有数据

                在时间维度明显呈批次性变化。一周一分析,一天一分析,所以也叫批处理

现状分析:

        实时分析(Real Time Processing)

                面向当下,分析实时产生的数据

                所谓实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级与毫秒级

预测分析:

        机器学习(Machine Learning)

                基于历史数据和当下产生的实时数据预测未来发生的事

                侧重于数学算法的应用,如分类、聚类、关联、规则


数据分析基本步骤

1.明确分析目的和思路

  • 目的是整个分析流程的起点,为数据的收集处理和分析提供清晰的指引方向
  • 思路是使分析框架体系化,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论支撑
    • 数据分析方法论包括用户行为理论,PEST分析法,5W2H分析法等

2.数据收集

  • 从无到有:如传感器收集气象数据
  • 传输搬运:业务数据(RDBMS),日志数据(服务器、应用日志),爬虫数据(爬虫数据库),互联网公开数据(行业、政府网站)

3.数据预处理 

  • 数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要步骤有:数据清洗数据转化数据提取数据计算
  • 数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据(格式清晰,利于解读)

4.数据分析 

  • 用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程

5.数据可视化

  • 用图表展示分析结果

注:数据分析的结果不只是可视化,还可以继续数据挖掘,即席查询(Ad Hoc)等  

6.报告撰写 

  • 数据分析报告是对整个数据分析过程的一个总结与呈现
  • 把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考
  • 需要有明确的结论,最好有建议或解决方案

大数据5V特征 

Volume-数据体量大

  • 采集数据量大
  • 存储数据量大
  • 计算数据量大
  • TB、PB级别起步

Variety-种类、来源多样化

  • 种类:结构化、半结构化、非结构化
  • 来源:日志文本、图片、音频、视频

Value-低价值密度

  • 信息海量但价值密度低
  • 深度复杂的挖掘分析需要机器学习算法参与

Velocity-速度快 

  • 数据增长速度快
  • 获取数据速度快
  • 数据处理速度快

Veracity-准确

  • 数据准确性
  • 数据可信度 
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值