![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
Deng_huakai
花开自会落
展开
-
hadoop源码编译及安装配置
文章目录前言编译所需要的环境条件安装依赖库上传软件...转载 2020-03-10 17:08:01 · 869 阅读 · 0 评论 -
Yarn
配置文件按照官网配置文件mapred-site.xml文件:[hadoop@hadoop002 hadoop]$ cp mapred-site.xml.template mapred-site.xml (因为mapred-site.xml 文件没有,所以复制一个模板文件并重新命名按照官网上面改)(参照txt中的内容进行修改)修改etc/hadoop/yarn-site.xml文件(yarn-...原创 2018-10-30 15:17:35 · 293 阅读 · 0 评论 -
hdfs
hadoop广义:以Hadoop软件为主的生态圈狭义:Hadoop软件hadoop.apache.org hive.apache.org spark.apache.org flink.apache.org生产上一般用Hadoop2.x 版本(因为考虑到很多软件在一起用的兼容性,所以不用最新的3.x的版本)hadoop2.x组件:hdfs: 存储 分布式文件系统 底层 生产...原创 2018-10-28 19:28:28 · 145 阅读 · 0 评论 -
对hadoop源码进行编译
hadoop编译前期准备软件需要软件安装安装maven安装ProtocolBuffer 2.5.0安装其他依赖包对hadoop进行编译前期准备软件需要部署JAVA环境安装maven安装Protocol Buffer 2.5.0安装Findbugs(可选)软件安装安装maven下载解压maven的安装包[hadoop@hadoop001 software]$ pwd/h...原创 2018-11-30 22:12:52 · 4264 阅读 · 0 评论 -
hadoop集群搭建2
java的部署[hadoop@hadoop001 software]$3代表小窗口中同时将命令行输入到三台机器上,[hadoop@hadoop001 software]$1代表将命令行输入到当前机器上1.解压jdk包放到/usr/java里面[root@hadoop001 ~]#3 su - hadoop[hadoop@hadoop001 ~]$3 cd software[hadoop@...原创 2018-11-27 22:27:13 · 149 阅读 · 0 评论 -
集群搭建1之前期准备
软件版本准备1.hadoop-2.6.0-cdh5.7.0.tar.gz2.jdk-8u45-linux-x64.gz3.zookeeper-3.4.6.tar.gz建立hadoop用户上传软件1.在/home/hadoop(也就是hadoop用户的家目录下面)建立几个文件夹用于存放数据[hadoop@hadoop001 software]$3 mkdir app software d...原创 2018-11-27 11:20:25 · 323 阅读 · 0 评论 -
hadoop集群搭建3之集群启动
前面集群已经成功搭建,现在来尝试启动集群。第一次系统启动的时候,是需要初始化的启动zookeeper1.启动zookeeper的命令:./zkServer.sh start|stop|status[hadoop@hadoop001 ~]$3 zkServer.sh start (脚本已经被配置在路径下面了,所以不用再到zookeeper的bin目录下面执行)JMX enabled by d...原创 2018-11-29 09:47:58 · 907 阅读 · 0 评论 -
Hadoop 集群之HDFS HA、Yarn HA
部署集群的原因如果我们采用单点的伪分布式部署,那么NN节点挂了,就不能对外提供服务。集群的话,存在两个NN节点,一个挂了,另外一个从standby模式直接切换到active状态,实时对外提供服务(读写)。在生产上,避免出现对外服务中断的情况,所以会考虑采用集群部署。HDFS HA (High availability)单点式伪分布:NNSNN secondary 1小时checkpoin...原创 2018-11-25 16:32:37 · 333 阅读 · 0 评论 -
MapReduce job提交到Yarn的工作流程
MR JOB提交到Yarn的工作流程Yarn的架构设计Yarn的工作流程(属于同种说法)工作流程图:用户向Yarn的RM提交应用程序,其中包括ApplicationMaster程序(应用程序的主程序),启动ApplicationMaster命令等RM首先为该app程序分配第一个container容器,并与对应的NM通信,要求NM在这个Container中启动应用程序的applicatio...原创 2018-11-12 20:55:27 · 1131 阅读 · 1 评论 -
hdfs 的三个节点的pid文件分析
pid文件默认存储在/tmp目录下pid内容就是进程号[hadoop@hadoop001 tmp]$ cat hadoop-hadoop-datanode.pid9144修改/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop文件夹下的hadoop-env.sh文件里面的参数。export HADOOP_PID_DIR=${HADOOP_PI...原创 2018-11-12 17:15:23 · 198 阅读 · 0 评论 -
HDFS常用命令
[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -ls /hdfs dfs -put a.txt / (上传,把a.txt文件上传到hdfs的根目录/ 下)hdfs dfs -get /a.txt ./ (下载,把hdfs根目录下的a.txt下载到当前目录)hdfs dfs -copyFromLocal a.txt /(上传...原创 2018-11-12 16:45:30 · 343 阅读 · 0 评论 -
hdfs操作命令的权限问题
权限报错问题[root@hadoop002 hadoop-2.6.0-cdh5.7.0]# bin/hdfs dfs -put README.txt /ruozedata (当不在hadoop用户下的时候,就要严格在其bin目录下执行hdfs的命令)put: Permission denied: user=root, access=WRITE,inode="/ruozedata":ha...原创 2018-11-12 16:30:36 · 1052 阅读 · 0 评论 -
hdfs写流程
流程图如下:Client调用FileSystem.create(filePath),去与NN节点进行RPC通信,check该路径下的文件是否已经存在?是否有权限创建该文件?假如OK,就创建一个新的文件,但是不关联任何的block,返回一个FSDataOutputStream对象;假如不OK,就返回错误信息Client调用FSDataOutputStream对象的write方法,将第一个块写...原创 2018-11-12 16:12:10 · 133 阅读 · 0 评论 -
hdfs读流程
面试宝典流程图如下:client通过分布式FileSystem.open(path)方法(其实就是传入路径,读的具体文件的路径),去与NN进行RPC通信,NN会校验路径是否存在 权限是否OK。校验完成后,返回文件的部分或全部的block列表(其实就是返回FSDataInputStream对象)(假如块的数量比较多,那么可能先返回文件的部分块,等这一部分块读完之后,再继续返回其他的块)C...原创 2018-11-12 15:25:26 · 104 阅读 · 0 评论 -
文件写流程
上传hdfs dfs -put ruozedata.log /user/hadoop/day01/ (把本地文件ruozedata.log复制上传到hdfs下的/user/hadoop/day01/ 的文件夹下面)注释流程Client调filesystem.create(path),与nn rpc通信,check path是否已经存在及有没有权限创建;(rpc通信是面试题)假如OK,...原创 2018-11-12 14:51:02 · 160 阅读 · 0 评论 -
hdfs学习进程1
block块与副本数的概念块:dfs.blocksize :134217728 / 128M副本数:dfs.replication 1 / 3 (学习过程设置为1,正常生产中设置为3),副本数指的是一个块的复制数。面试:一个文件160m,副本数2,块大小128m,实际存储空间多少?块数量多少? 答案:块的数量为22=4,实际存储空间为1602HDFS架构设计NN 主 名称节点 ...原创 2018-11-05 22:07:34 · 197 阅读 · 0 评论