![](https://img-blog.csdnimg.cn/20190927151101105.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
bigdata_01_Hadoop
文章平均质量分 66
HDFS-MR
最佳第六六六人
一只威武的大数据架构攻城狮
展开
-
MapReduce的Shuffle优化
MapReduce的Shuffle优化:(1)map输出端:①增加环形缓冲区的大小默认100M,可以增加到200M②增大环形缓冲区溢写文件的阈值默认0.8,可以增加到0.9③减少对溢写文件merge次数默认10个文件merge一次④不影响业务逻辑的情况下,使用Combiner预聚合如何开启Combiner?set hive.map.aggr = true(2)reduce端:①合理设置Map和Reduce的个数a. Map的个数如何设置呢?通过参数 set mapred.max.s原创 2021-03-29 00:44:28 · 511 阅读 · 0 评论 -
大数据2_16_Hadoop HA高可用
4 Hadoop HA高可用4.1 HA概述什么是HA?HA(High Availablity),高可用性,不中断服务。怎样实现高可用呢?最关键的策略是消除单点故障,HA分为:HDFS的HA,YARN的HA那些方面会影响HDFS集群的可用性?NameNode机器宕机;NameNode机器需要升级。zookeeper的节点解析[zk: localhost:2181(CONNECTED) 8] ls /[hadoop-ha, rmstore, yarn-leader-election,原创 2020-10-20 23:31:22 · 176 阅读 · 0 评论 -
大数据2_15_Hadoop新特性
3 Hadoop新特性Hadoop2.x新特性①集群间数据拷贝两个远程主机之间文件复制# 将本地文件传到hadoop103节点scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt# 将hadoop103节点上的文件下载到本地scp -r root@hadoop103:/user/atguigu/hello.txt hello.txt# 两个节点拷贝scp -r root@hadoop103:/user/atguigu/hello.原创 2020-10-20 23:32:43 · 110 阅读 · 0 评论 -
大数据2_14_Hadoop优化
<!-- yarn容器允许分配的最大最小内存 --><property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>512</value></property><property> <name>yarn.scheduler.maximum-allocation-mb</name>原创 2020-10-20 23:29:00 · 90 阅读 · 0 评论 -
大数据2_13_ MapReduce
1 MapReduce概述MapReduce是一个分布式运算程序的编程框架。1.1 MapReduce的核心编程思想将一个分布式运算程序分成两个阶段:map和reduceMapTask:(1)读取文件,分块存储到hdfs的集群上(期间包括数据复制达到副本数)(2)Yarn的Resourcemanager计算出MapTask的数量。(也就是切片的数量)如何计算切片的数量呢?默认切片大小是block块大小128M,每次切片都要判断剩下的部分是否大于块的1.1倍;如果大于1.1倍继续正常切;入原创 2020-10-18 23:46:00 · 182 阅读 · 0 评论 -
大数据2_12_DataNode
6 DataNode6.1 DN工作机制(1)一个数据块在DataNode上以文件形式存储在磁盘上,一个是数据本身,一个是元数据(数据块长度,块数据的校验和,时间戳)(2)DataNode启动后会向NameNode注册,每一个小时就会向NameNode上报所有数据信息。(3)心跳是每3秒一次,心跳返回结果带有NamoNode给DataNode的命令。如果超过10分钟没有收到DataNode的心跳就会认为该节点不可用。(4)集群运行中可以安全的加入和退出一些机器。6.2 掉线时限参数设置配原创 2020-10-18 23:16:15 · 117 阅读 · 0 评论 -
大数据2_11_NameNode和SecondaryNameNode
5 NameNode和SecondaryNameNode5.1 NN和2NN工作机制上面的提出一个问题,NameNode中的元数据是存储在哪里的?因为元数据要经常相应客户请求,所以必须放在内存中,才能保证其效率。但是放在内存中的话,一旦断电将会导致元数据丢失,整个集群就没法正常工作了。—> 在磁盘中备份元数据的FsImage如果在内存中的元数据更新时,同时更新FsImage,就会导致效率过低;但是如果不更新,就会发生一致性问题,一旦断电就会导致数据丢失。—> Edits文件(只原创 2020-10-18 23:14:47 · 169 阅读 · 0 评论 -
大数据2_10_HDFS概述和数据流
1 HDFS概述HDFS(Hadoop Distributed File System),Hadoop分布式文件系统hdfs适合一次写入、多次读出,不支持文件修改,可以追加。1.1 HDFS组成架构Namenode(nn):名称节点存储元数据管理HDFS的命名空间,配置副本策略,管理块block,处理客户端读写请求。Datanode(dn):数据节点存储实际数据,存储的位置在/opt/module/hadoop-3.1.3/data/dfs/data下。SercondaryN原创 2020-10-18 23:13:11 · 152 阅读 · 0 评论 -
大数据2_09_HDFS的客户端操作
3 HDFS的客户端操作3.1 客户端环境准备步骤1:安装hadoop3.1.3到Windows系统解压编译好的hadoop包,解压到无空格非中文路径。步骤2:配置环境变量HADOOP_HOME=/windows下hadoop的家目录PATH=%HADOOP_HOME%/bin步骤3:查看windows下hadoop是否可以使用打开cmd输入hadoop;然后重启电脑步骤4:创建一个maven工程,导入依赖<dependencies> <dependenc原创 2020-10-18 14:37:40 · 166 阅读 · 0 评论 -
大数据2_08_HDFS的shell操作
2 HDFS的shell操作hdfs操作的语法:hadoop fs 和 hdfs dfs 一样都可2.1 文件上传# 1 复制上传hadoop fs -put /本地文件路径 /hdfs路径hadoop fs -copyFromLocal /本地文件路径 /hdfs路径【文件名】不指定文件名就是默认以当前文件名上传到hdfs,指定文件名则上传并改名。# 2 剪切上传hadoop fs -moveFromLocal /本地文件路径 /hdfs路径【文件名】# 3 追加一个文原创 2020-10-18 14:36:45 · 97 阅读 · 0 评论 -
大数据2_07_hadoop3.x配置集群时间同步
7 配置集群时间同步时间服务器配置,前提必须切换到root用户 su root步骤1:关闭所有节点的ntpd服务和关闭开机自启动状态systemctl status ntpdsystemctl list-unit-files | grep ntpd# 如果开启需要关闭systemctl stop ntpdsystemctl disable ntpd步骤2:修改hadoop102的ntp.conf配置文件vim /etc/ntp.conf修改1:授权192.168.1.0-192原创 2020-10-12 23:24:25 · 147 阅读 · 0 评论 -
大数据2_06_hadoop3.x配置历史服务器和日志聚集
6 配置历史服务器和日志聚集配置历史服务器步骤1:配置mapred-site.xml<!-- 历史服务器端地址 --><property> <name>mapreduce.jobhistory.address</name> <value>hadoop102:10020</value></property><!-- 历史服务器web端地址 --><property>原创 2020-10-10 17:53:44 · 555 阅读 · 0 评论 -
大数据2_05_hadoop3.x集群配置
5 hadoop3集群配置步骤1:配置nodepad++,可以在windows系统下修改linux内的文件。步骤2:集群规划hadoop102hadoop103hadoop104namenodesecondrynamenodedatanodedatanodedatanoderesourcemanagernodemanagernodemanagernodemanager步骤3:在hadoop102上修改5个文件:core-site.xm原创 2020-10-10 14:00:36 · 219 阅读 · 0 评论 -
大数据2_04_hadoop3.x集群免密登录配置
免密登录配置步骤1:在102上执行ssh-keygen -t rsa步骤2:复制公钥到ssh-copy-id hadoop103这样hadoop102就可以免密登录到hadoop103了,但是hadoop103不能免密登录hadoop102步骤3:集群分发同一份私钥公钥对ssh-keygen -t ecdsassh-copy-id hadoop102xsync ~/.ssh这样分发同一份公钥和私钥对,就可以相互的免密登录了。问题1:为什么只需要分发hadoop102的家目录内原创 2020-10-10 00:30:00 · 157 阅读 · 0 评论 -
大数据2_03_hadoop3.x配置远程同步脚本xsync
3 配置远程同步脚本xsync远程分发指令有:scp (secure copy)之前都是sudo scp /opt/hello.txt atguigu@hadoop103:/opt/也可以:sudo scp /opt/hello.txt hadoop103:/opt/rsync主要用于备份和镜像,速度快,只对差异文件更新。sudo rsync -av hadoop hadoop:/opt/步骤1:在/bin目录下创建一个xsync文件,在里面编写脚本#!/bin/bas原创 2020-10-10 17:52:16 · 183 阅读 · 0 评论 -
大数据2_02_hadoop3.x配置jdk和hadoop
配置jdk和hadoop环境步骤1:将JDK和Hadoop的tar包拷贝到/opt/software步骤2:解压cd /opt/software# 方式1:ls *.tar.gz | grep xargs -n1 tar -zxC /opt/module -f将ls *.tar.gz 的结果作为参数传到 tar -zxC /opt/module -f这个命令中# 方式2:tar -zxvf hadoop....tar.gz -C /opt/moduletar -zxvf jdk....t原创 2020-10-10 00:29:13 · 241 阅读 · 1 评论 -
大数据2_01_hadoop3.x虚拟机准备
1 虚拟机准备步骤1:安装最小化安装的虚拟机步骤2:将onboot改为static,(后面修改ip地址,网关,DNS1域名解析)如果在最小化安装的时候设置了网络,那么此时的onboot已经改为static了,然后也会有一个动态的ip了,可以使用这个ip连接。如果在最小化安装的时候没有设置网络,这个时候是下面这样的,没有ipvi /etc/sysconfig/network-scripts/ifcfg-ens33步骤3:重启network服务systemctl restart netwo原创 2020-10-10 17:47:37 · 102 阅读 · 0 评论 -
大数据1_01_Hadoop2.x入门
作者:codejiwei日期:2020-05-01Hadoop运行环境搭建①虚拟机环境准备克隆虚拟机(克隆-完全复制)修改克隆虚拟机的静态ip(物理ip地址)和主机名等vim /etc/udev/rules.d/70-persistent-net.rules删除,修改为0,复制物理ip地址vim /etc/sysconfig/network-scripts/ifcfg-eth0修改HWADDR=复制的物理ip地址;前提(ONBOOT=yes NM=CONTROLLED=yes原创 2020-10-07 00:18:46 · 250 阅读 · 0 评论