1、数据分析方向:现状分析、原因分析、预测分析
离线数据:对历史数据进行批处理(eg:一周一次)
实时数据:流处理(毫秒级)
预测数据:机器学习(分类、聚类、关联、预测)
2、数据分析思路
- 明确分析目的和分析思路
- 数据收集:业务数据RDBMS、日志数据(服务器、应用日志)、爬虫数据、互联网公开数据
- 数据处理:数据清洗、数据转化、数据提取、数据计算变成结构化数据
- 数据分析:用户行为理论、PEST分析法(政治/经济/社会/科技)、5W2H分析法
- 数据展现:数据可视化
- 报告撰写:对分析结果进行总结
3、大数据5V特征
- Velocity:数据增长快、获取数据速度快、数据处理速度快
- Value:低密度价值,需要从海量数据中挖掘价值
- Veracity:数据质量,数据准确可信
- Variety:种类来源多样化,文字图片音频
- Volume:数据体量大TB级别
4、分布式和集群
- 分布式:多台机器(服务旗),每台机器上部署不同的组件,不同组件相互作用。
- 分布式存储、分布式计算
- 集群:多台机器,每台机器上部署相同的组件,比如百度在不同的地方部署相同的搜索服务器