大数据:
学术解释:满足以下四个特征的数据:
Volume(大量) Velocity(高速)
Variety(多样) Veracity(价值)
自我解释:一台机器不能存储,一台物理机器短时间内不能计算出(处理)
源于Google三篇论文:GFS、MAPREDUCE、BIGTABLE
相应的实现技术:HDFS、MapReduce、HBase
HDFS:解决大文件如何存储?如何快速的读写?如何容错?
Block(块):把文件切成块,大小?1.* 64M 2.* 128M :解决大文件如何存储及如何快速的读写,利用备份解决容错
DATANODE:存储数据
NAMENODE:存储数据的元
使用:
shell
java api
第三方工具
50070 web
MapReduce:一种编程模型,"Map(映射)"和"Reduce(归约)"
(我们经常使用spark框架进行替代,具体好处见spark一文)
HBase:一个分布式的、面向列的开源数据库
Python大数据为pyspark。
依赖关系:
Pyspark:需要Python、Spark
Spark:需要hadoop、jdk
hadoop:需要jdk
大数据解决方案:
hadoop:速度慢:他的磁盘IO太多
spark:内存(DAG)计算方式
处理数据的形式为:离线处理,不可以实时处理
实时框架:Apache Flink---Blink(阿里巴巴)
Apache Storm
近似实时:1s(最低)
jps:
SparkSubmit :spark的批处理运行模式
DATANODE :存储数据
NAMENODE :存储数据的元,NameNode控制DataNode
SecondaryNameNode :Secondary NameNode是NameNode的冷备份
ResourceManager :负责集群中所有资源的统一管理和分配,它接收来自各个节点(NodeManager)的资源汇报信息,并把这些信息按照一定的策略分配给各个应用程序(实际上是ApplicationManager)。
NodeManager :ResourceManager在每台机器上的代理,负责容器管理,并监控它们的资源使用情况,以及向ResourceManager/Scheduler提供资源使用报告
当输入start-dfs.sh时,jps列表中出现DATANODE、NAMENODE时,hdfs服务开启成功!也可以在防火墙关闭的前提下,在浏览器地址栏输入:ip:50070进行测试,若访问成功,即服务开启。
当输入start-yarn.sh时,jps列表中出现NodeManager、ResourceManager时,yarn服务开启成功!也可以在防火墙关闭的前提下,在浏览器地址栏输入:ip:8088进行测试,若访问成功,即服务开启