Week 1 大数据分析介绍
大数据的四个维度:4V
① Volume(数据量):生成和存储的大量数据(通常按TB或PB的顺序)
②Variety(数据形式):所使用的数据类型和数据源的范围,包括非结构化数据
③Velocity(数据速度):收集,共享和分析数据的速率-通常是实时流式数据(例如,来自社交媒体)
④ Veracity(数据的可靠性):数据质量的不确定性(准确性,出处,相关性和一致性)
Scale-up VS Scale-out
Scale-up 纵向扩展:仅在一定程度上增加计算机(即磁盘,内存,处理器)的功能。
Scale-out 横向扩展:使用许多标准计算机,并在其上分发数据和计算。
分布式计算
高性能计算(HPC,放大)
– CPU / GPU密集型问题(AI,3D图形)
Seti@Home
-在你的电脑上下载分析无线电望远镜数据
P2P
去中心化(例如bittorrent)
Hadoop -> 并行处理大型数据集
Spark ->更快,在内存里
Apache Hadoop
1.开源
2.基于HDFS (分布式文件系统)
3.Map/Reduce
Apache Spark vs Hadoop
1.快100倍
2.基于HDFS
3.数据保留在内存
4.不仅仅是Map/Reduce(Volume,velocity,图形形状数据等的集成系统。)