hadoop
文章平均质量分 58
神龙龙
一只专心学习的龙
展开
-
解决Hadoop数据倾斜
一、什么是数据倾斜简而言之就是数据分布不均匀,某一个key非常多会导致那个Reduce主机压力大造成数据倾斜,造成集群的效率低下,一些任务出现卡死在99%的情况下不运行,资源的利用率低下二、解决办法1.提前在map进行combine,减少数据传输的数据量在mapper加上combiner相当于提前进行reduce,就是把mapper中相同的key进行了聚合,减少了shuffle过程中传输的数据量,以及reducer端的计算量2.导致数据倾斜的key大量的分布在不同的mapper原创 2021-08-29 09:50:32 · 749 阅读 · 0 评论 -
HDFS解决小文件
一、har回档(存储方向)每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在减少NameNode内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS存.原创 2021-08-28 10:58:54 · 1513 阅读 · 1 评论 -
HDFS生产调优大全
一、HDFS——核心参数1.NameNode内存生产配置1)NameNode内存计算每个文件大概占用150字节,一台服务器128G内存为例,能存储128*1024*1024*1024/150Byte=9.1亿约等于9亿块2)Hadoop2.x配置NameNode内存NameNode内存默认2000M,如果服务器内存4G,NameNode内存可以配置3g,在hadoop-env,.sh文件中配置HADOOP_NAMENODE_OPTS=-Xmx3072m3)hadoop3.x.原创 2021-08-28 10:25:27 · 315 阅读 · 0 评论 -
HDFS读写流程--精细
一、写数据流程使用客户端Client,向Namenode发起写文件的请求Namenode会检查是否已存在文件,通过检查则先将操作写入EditLog中,并返回输出流对象。(EditLog记录的是最新的hdfs客户端执行所有的写操作,若后续执行失败也不会丢失数据)client客户端按照128M的块进行切分文件。client将Namenode分配的可写的datanode列表和data数据发送给最近的第一个DataNode节点中(如果第一个block块数据读取完成就会关闭指向第一个block块的data原创 2021-06-14 19:54:35 · 171 阅读 · 0 评论 -
DataNode部分不能启动原因
在搭建hadoop集群中,经常总是有的机器上DataNode不能启动成功查看目录/opt/modules/hadoop-2.7.3/data/tmp/dfs/data/current,cat VERSION文件 对比其他机器的cluster ID ,此时不一致要改为一致,然后用 hadoop-daemon.sh start datanode 就可以启动datanode了...原创 2021-02-18 17:59:50 · 158 阅读 · 0 评论 -
Zookeeper配置及运行
Zookeeper配置及运行本地模式安装部署1)安装前准备1.安装jdk2.拷贝Zookeeper安装包到Linux系统下3.解压tar -zxvf zookeeper-3.5.7.tar.gz -c /opt/module/4.配置环境变量(可选)[lxt@hadoop102 ~]$ cd etc/profile.d/#创建ZOOKEEPER_HOMEexport ZOOKEEPER_HOME=/opt/module/zookeeper-3.5.7export PATH=$PATH:原创 2021-01-15 23:02:15 · 416 阅读 · 0 评论 -
Hadoop完全分布式运行模式
Hadoop环境的搭建1.配置克隆主机的环境(1) 准备虚拟机 (最小化安装Linux-模板机)(2) 对模板机进行数据初始化配置 (登录root用户)-- ip地址要进行修改[root@hadoop100 桌面]#vim /etc/sysconfig/network-scripts/ifcfg-ens33[root@hadoop100 桌面]#service network restart-- 用Xshell工具远程连接Linux-- 通过yum安装所需要的插件[root@hadoop1原创 2021-01-03 22:56:04 · 234 阅读 · 0 评论
分享