Hadoop
灵佑666
这个作者很懒,什么都没留下…
展开
-
Spark Yarn 调度器Scheduler详解
一、调度器的选择在Yarn中有三种调度器可以选择:FIFO Scheduler,Capacity Scheduler,FairS cheduler。FIFO Scheduler把应用按提交的顺序排成一个队列,这是一个先进先出队列,在进行资源分配的时候,先给队列中最头上的应用进行分配资源,待最头上的应用需求满足后再给下一个分配,以此类推。FIFO Scheduler是最简单也是最容易理解...原创 2020-04-06 16:24:58 · 243 阅读 · 0 评论 -
检查HDFS的健康状态
一、通过web UI查看二、通过命令产看低版本的命令为:sudo -u hdfs hadoop fsck /高版本的命令为:sudo -u hdfs hdfs fsck /hdfs fsck输出的解释:Usage: DFSck [-list-corruptfileblocks | [-move | -delete | -openforwrite] [-files [-blocks ...原创 2019-12-23 10:43:08 · 1875 阅读 · 0 评论 -
Attempting to operate on hdfs namenode as root
1、master,slave都需要修改start-dfs.sh,stop-dfs.sh,start-yarn.sh,stop-yarn.sh四个文件2、如果你的Hadoop是另外启用其它用户来启动,记得将root改为对应用户在/hadoop/sbin路径下:将start-dfs.sh,stop-dfs.sh两个文件顶部添加以下参数#!/usr/bin/env bashHDFS_...原创 2019-09-09 15:45:43 · 454 阅读 · 0 评论 -
yarn集群上内存和cpu调优和设置
转载自:YARN的内存和CPU配置 翻译自:Determine YARN and MapReduce Memory Configuration Settings根据文章上的计算方式,来设置下面这个属性的值,调整到最佳状态。注意很多情况下,单个任务task也就是指一个container。task的并行度也就是container的并行度。可以这样理解,task就是在container中启动的任...转载 2019-07-22 20:59:30 · 1166 阅读 · 0 评论 -
Yarn 内存分配管理机制及相关参数配置
理解Yarn的内存管理与分配机制,对于我们搭建、部署集群,开发维护应用都是尤为重要的,对于这方面我做了一些调研供大家参考。一、相关配置情况关于Yarn内存分配与管理,主要涉及到了ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Container的概念,现在可以先把它理解为运行map/re...转载 2019-07-16 16:35:20 · 175 阅读 · 0 评论 -
mapReduce流程的可干预组件
1.combiner:相当于一个reduce,在map端后,可以大大的减少IO2.partition:分区,默认是根据key的hash值%reduce的数量,自定义分区是继承Partitioner类,重写getPartition()分区的方法,自定义分区可以有效的解决数据倾斜问题3.group:分组,继承WritableComparetor类,重写compare()方法,自定义分组(就是定义r...原创 2019-04-21 21:17:01 · 130 阅读 · 0 评论 -
MapReduce使用combiner优化性能读写Hbase
当MapReduce模型中,reduce执行的任务为统计分类类型的值总量或去重后的数量,或最大值最小值时,可以考虑在Map输出后进行combine操作;这样可以减少网络传输带来的开销,同时减轻了reduce任务的负担。Combine操作是运行在每个节点上的,只会影响本地Map的输出结果;Combine的输入为本地map的输出结果(一般是数据在溢出到磁盘之前,可以减少IO开销),其输出则作为red...转载 2019-04-03 11:09:25 · 232 阅读 · 0 评论 -
Hadoop中MapReduce中combine、partition、shuffle的作用,程序中的使用
InputFormat类:该类的作用是将输入的文件和数据分割成许多小的split文件,并将split的每个行通过LineRecorderReader解析成<Key,Value>,通过job.setInputFromatClass()函数来设置,默认的情况为类TextInputFormat,其中Key默认为字符偏移量,value是该行的值。Map类:根据输入的<Key,Value...原创 2019-04-03 09:59:57 · 849 阅读 · 0 评论 -
MapReduce数据倾斜解决方案
一.数据倾斜简介1>.什么是数据倾斜 答:大量数据涌入到某一节点,导致此节点负载过重,此时就产生了数据倾斜。2>.处理数据倾斜的两种方案 第一:重新设计key; 第二:设计随机分区;二.模拟数据倾斜数据:3 5 7 9 1 3 5 7 9 1 3 5 7 9 1 3 5 7 9 1 3 5 7 9 1 3 5 7 9 1 3 5 7 ...原创 2019-04-03 01:13:29 · 1069 阅读 · 0 评论 -
大数据调优总结
目 录12.1配置原则如何发挥集群最佳性能影响性能的因素12.2Manager12.2.1提升Manager配置服务参数的效率12.2.2根据集群节点数优化Manager配置12.3HBase12.3.1提升BulkLoad效率12.3.2提升连续put场景性能12.3.3Put和Scan性能综合调优12.3.4提升实时写数据效率1...原创 2019-04-01 09:50:55 · 2205 阅读 · 0 评论 -
Hadoop生态圈常用端口
Hadoop集群的各部分一般会用到多个端口,有些事daemon之间进行交互之用,有些事用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含使用的组件:HDFS、YARN、HBase、Hive、Zookeeper:组件 节点 默认端口 配置 用途说明 HDFS DateNode...转载 2019-03-14 00:06:48 · 168 阅读 · 0 评论 -
项目:YouToBe
三、项目原始数据youtube在此下载:https://pan.baidu.com/s/1we1KPA2IIEAGIJczyr2dMQ3.1、数据结构3.1.1、视频表 3.1.2、用户表 3.2 原始数据存放地HDFS 目录:视频数据集:/youtube/video/2008用户数据集:/youtube/users/20083.3、技术选型Hadoop...转载 2018-12-13 20:32:53 · 6802 阅读 · 0 评论 -
hive 元数据解析
hive 元数据解析在使用Hive进行开发时,我们往往需要获得一个已存在hive表的建表语句(DDL),然而hive本身并没有提供这样一个工具。要想还原建表DDL就必须从元数据入手,我们知道,hive的元数据并不存放在hdfs上,而是存放在传统的RDBMS中,典型的如MySQL,derby等,这里我们以mysql为元数据库,结合0.4.2版本的hive为例进行研究。连接上mysql后可...转载 2018-12-08 08:33:27 · 431 阅读 · 0 评论 -
Linux配置jdk与Hadoop
1.刚开始配置,注意用root账号登陆,否则注意路径是否正确;2.用CentOS7注意要删除自带的JDK,否者会出现找不到路径的情况;查看JDK信息:rpm -qa | grep java 或者 rpm -qa | grep jdk查出JDK:rpm -e --nodeps 。。。。(注意CentOS7下面要删除4个JDK)...原创 2018-11-08 20:05:25 · 223 阅读 · 0 评论