![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
Hadoopx相关
abcdggggggg
喜欢的可以点赞收藏~~
展开
-
Spark Shuffle简介 Shuffle分区Id ShuffleWriter
转载 2022-03-25 21:10:50 · 118 阅读 · 0 评论 -
Hadoop NameNode重新格式化 Failed to add storage directory [DISK]file
1.介绍在NameNode重新格式化之前,需要删除DataNode上的数据和log日志。不然会造成NameNode和DataNode的clusterID不一致的问题。会有以下报错信息:Failed to add storage directory [DISK]file2.重新格式化流程(1)停止Hadoop服务在NameNode上执行需要已经配置好了环境变量stop-all.sh(2)删除DataNode上的数据和log日志查看hdfs-site.xml中的..原创 2021-03-07 18:18:05 · 3274 阅读 · 1 评论 -
大数据集群安装(三)Hadoop Apache集群安装部署 详细 (包括环境准备和Zookeeper安装)
本次测试3台集群(node1(192.168.1.2),node2(192.168.1.4),node3(192.168.1.6)),所有的主服务都安装在node1节点,操作系统为CentOS7.61.环境准备参考博客:https://blog.csdn.net/qq_35260875/article/details/1113151102.安装Zookeeper参考博客:https://blog.csdn.net/qq_35260875/article/details/111322...原创 2020-12-24 11:40:13 · 214 阅读 · 0 评论 -
大数据集群安装(一) Linux环境准备 步骤简单 详细
本次测试3台集群(node1(192.168.1.2),node2(192.168.1.4),node3(192.168.1.6)),所有的主服务都安装在node1节点,操作系统为CentOS7.61.设置语言和时区(1)设置默认语言每个节点都要设置echo $LANG默认语言为en_US.UTF-8,则跳过。默认语言非en_US.UTF-8,则执行以下步骤:echo 'export LANG=en_US.UTF-8' >> ~/.bashrc重新登录当前会..原创 2020-12-17 15:46:32 · 329 阅读 · 3 评论 -
Hadoop hdfs dfs命令 最常见经常使用的命令 入门推荐
1.常用命令下列的hdfs命令,都是在实际工作中经常会用到的,如果要看全部的命令可以直接使用hdfs dfs,会显示所有的命令。使用hdfs dfs -help能够查看每个命令的使用方法(1)help hdfs命令帮助hdfs dfs -help(2)ls 查看hdfs目录下内容命令格式:hdfs dfs -ls [文件目录]hdfs dfs -ls /结果:drwxr-xr-x - hdfs hdfs 0 2020-11-04 11:36 /HiBenc...原创 2020-11-23 10:02:15 · 9951 阅读 · 0 评论 -
MapReduce WordCount代码和编码规范详细说明
来源: https://www.cnblogs.com/qingyunzong/p/8573001.html1.WordCount代码自带的wordCount程序执行本地执行hadoop jar hadoop-mapreduce-examples-2.7.5.jar wordcount /wc/input1/ /wc/output1/查看结果hadoop fs -cat /wc/output1/part-r-00000wordCount代码如下:package com.转载 2020-05-22 16:53:07 · 495 阅读 · 0 评论 -
MapReduce 原理 shuffle过程 处理数据倾斜
参考:https://www.jianshu.com/p/93410ea20ec71.简介MapReduce是一个分布式编程的计算框架,是一个将分布式计算抽象为Map(映射)和Reduce(归约)两个阶段的编程模型2.MapReduce执行流程MapReduce的执行过程主要包含四个阶段:Split阶段、Map阶段、Shuffle阶段和Reduce阶段(1)split阶段 将输入的大文件进行split,每个输入分片(input split)针对一个map任务。 输...原创 2020-05-15 19:53:36 · 359 阅读 · 0 评论 -
Hadoop CentOS6.x 伪分布式安装 流程 详细 包括前提准备
注意:需要进入root用户1.把网卡IP设置成静态(NAT方式)# 查看网卡IPifconfigvi /etc/sysconfig/network-scripts/ifcfg-eth0# 把网卡设置成开机启动ONBOOT=yes# 把DHCP改为staticBOOTPROTO=staticIPADDR=192.168.17.129NETMASK=255.255.255.0GATEWAY=192.168.17.22.设置DNSvi /etc/s..原创 2020-05-12 20:13:38 · 113 阅读 · 0 评论 -
Hadoop2.7 windows开发环境快速安装 用于IDEA使用
1.下载Hadoop 下载hadoop源码包 下载地址:http://www.apache.org/dyn/closer.cgi/hadoop/common 选择地址: 选择 2.7.X的版本 下载 hadooponwindows-master.zip 由于原版的hadoop不支持Windows系统,需要修改配置 下载地址:https://github.com/sardetushar/hadooponwindows2.解压 将ha...原创 2020-05-12 20:11:37 · 672 阅读 · 0 评论 -
Hadoop分布式搭建(三台) CDH 5.14版本
默认已经做好安装前准备。本次安装使用源码包进行安装1.环境介绍 三台服务器:node01,node02,node03 三台服务器IP:192.168.14.44,192.168.14.46,192.168.14.48 CDH版本:5.14.0 Linux版本:CentOS7.52.下载Hadoop下载地址:http://archive.cloudera.com/cdh5/cdh/5/ 3.安装Hadoop 将源码包上传到服务器上,本...原创 2020-05-10 13:59:43 · 465 阅读 · 0 评论