Hadoop
整理hadoop相关
韩家小志
这个作者很懒,什么都没留下…
展开
-
Hadoop--总结
Hadoop分布式部署节点规划:Hadoop是分布式主从 架构根据每种进程使用资源的情况合理的分配节点先选择一台机器进行安装配置解压安装修改配置xxx-env.sh:环境变量配置文件,主要修改了JDK的路径hadoop-env.shmapred-env.shyarn-env.shxxx-site.xml:属性配置文件core-site.xmlHDFS的入口 = 也就是NameNode的地址,端口8020端口决定了访问的应用程序是谁为什么我给你的手机的微信发消息,不是你的原创 2020-12-06 17:12:02 · 132 阅读 · 1 评论 -
Hadoop--YARN总结
YARN是什么?YARN:分布式资源管理和任务调度框架负责将分布式程序提供分布式的资源来运行理解:程序运行的环境,提供了分布式的资源帮你实现运行功能:分布式资源管理和任务调度资源管理:将多台机器的资源构成一个统一的集群【资源容器】任务调度:负责实现程序的运行和调度本质:提供了一个程序的运行环境,负责程序的运行、监控、调度YARN的由来以前的Hadoop1是没有YARN,只有HDFS和MapReduceHadoop1:分布式计算与Hadoop2的主要区别Hado原创 2020-12-06 17:11:52 · 563 阅读 · 0 评论 -
Hadoop--MapReduce总结
MapReduce是什么?MapReduce:分布式编程模型本质:通过MR的API,帮助我们实现开发一个分布式的程序理解:MapReduce就是一套已经将分布式的框架给你写好的模板只要调用MapReduce的API来进行开发程序,这个程序开发好就是分布式的程序程序的类型,提供了分布式的程序帮你快速开发构建分布式程序举例:需求:1加到9Map阶段:负责将整个大的程序的业务逻辑,拆分成多个小的程序的业务逻辑这每个小的任务会由YARN分配在每台机器上进行计算每个小的任务会得到一个原创 2020-12-06 17:11:35 · 329 阅读 · 0 评论 -
Hadoop--HDFS总结
HDFS是什么?HDFS:分布式文件系统本质:将多台机器的文件系统在逻辑上进行合并,构建了一个整体统一的入口,最终真正存储数据的还是每一台Linux机器理解:HDFS就是专门帮别人存储的公司,这个公司由很多个仓库组成,每个仓库【Linux文件系统】分配了一个员工【DataNode】如果你有一个大的存储任务,提交给了HDFS这个公司HDFS这个公司会把大的存储拆分成若干个小的存储交给每个员工存入每个员工对应的仓库你也可以想象:HDFS = 菜鸟物流:自己做不做物流?不做菜鸟物流是将多原创 2020-12-06 17:11:02 · 193 阅读 · 1 评论 -
Hadoop--图解高可用HA
1、主从架构中存在的问题HDFS:大数据存储YARN:大数据计算分布式主从架构主节点进程都负责:接客和管理问题1:单点故障由于主节点进程只有一个,如果这个主节点进程故障,会导致整个集群不可用Hadoop1中无法解决这样的问题Hadoop2中允许同时启动多个主节点进程问题2:如果有多个主节点进程,那么谁工作,谁不工作,大家一起工作?解决:HA:故障转移,两个主服务,一个是工作状态的active ,一个是备份状态的standby如果active的故障,standby的原创 2020-12-05 22:17:53 · 192 阅读 · 1 评论 -
Hadoop--简介
一、简介谈谈大数据中谷歌论文的地位说起来大数据,就不得不提hadoop,那么也就不得不提谷歌的发布的三篇论文:21世纪前三架马车GFS==>HDFS分布式文件系统MapReduce==>MapReduce分布式计算BigTable==>HBase分布式列式存储数据库Hadoop的发展Hadoop官网:https://hadoop.apache.org/old/2006年Hadoop开始诞生第一个版本NDFS与MapReduce整合Hadoop1 : 0.x和1.x系原创 2020-11-29 20:08:29 · 161 阅读 · 0 评论