![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
hadoop
hdfs mapreduce yarn
秃头小姐
欢迎指教
展开
-
数据倾斜
数据倾斜就是在计算数据的时候,数据的分散度不够,导致大量的数据集中到了集群中的一台或者几台机器上计算,而集群中的其他节点空闲。这些倾斜了的数据的’计算速度远远低于’平均计算速度,导致整个计算过程过慢。产生原理:以Spark和Hive的使用场景为例数据运算的时候会涉及到,'count distinct、group by、join on'等操作,这些都会触发'Shuffle'动作。一旦触发Shuffle,所有'相同key'的值就会被拉到'一个或几个Reducer'节点上,容易发生单点计算问题,导致数据倾斜原创 2021-04-12 14:21:01 · 173 阅读 · 0 评论 -
sublime安装package control报错please try manual install
一、下载正常在sublime中文官网下载对应版本的安装包或者压缩包即可;二、安装package control插件2.1 正常方法是根据官网操作指南做可通过下图方式在官网点击进入2.2 上述安装package control不成功?按官方方式调出命令行,粘贴官网代码,报错please try manual install,可以使用下面代码解决import urllib.request,os; pf = 'Package Control.sublime-package'; ipp = su原创 2021-03-19 11:03:32 · 1223 阅读 · 0 评论 -
maven工程打包
写好类之后,1点击右侧的Maven-----选择当前要打包的工程----2选择工程中的 package----3选择tests mode----4运行打好包之后,就会出现一个target文件夹,文件夹中有已经打好的包若打包成功但是没有显示文件,点击file---Reload all from disk...原创 2021-03-17 10:33:30 · 103 阅读 · 0 评论 -
maven工程
file右键----新建project----Maven—next----填写name、location—finish在pom.xml中加入配置信息,例如<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.2.1</version></dependenc..原创 2021-03-17 09:35:12 · 72 阅读 · 0 评论 -
YARN架构
1. ResourceManagerResourceManager管理整个集群的资源调度 通常在独立的机器上以后台进程的形式运行,它是整个集群资源的主要协调者和管理者。ResourceManager 负责给用户提交的所有应用程序分配资源,它根据应用程序优先级、队列容量、ACLs、数据位置等信息,做出决策,然后以共享的、安全的、多租户的方式制定分配策略,调度集群资源。2. NodeManagerNodeManager 是 YARN 集群中的每个具体节点的管理者。主要负责该节点内所有容器的生命周期的管理.原创 2021-03-13 09:35:49 · 65 阅读 · 0 评论 -
yarn的资源调度器
资源调度器目前,Hadoop作业调度器主要有三种:FIFO:【只有一个队列】;Capacity Scheduler:Hadoop2.7.2默认的资源调度器是Capacity Scheduler【有多个队列,可以增加资源调度的并行度,各队列资源可调,每个队列资源分配给1个job】。;Fair Scheduler:【有多个队列,可以增加资源调度的并行度,各队列资源可调,每个队列的资源分配给多个job,按优先级存在分配多少问题】。...原创 2021-03-13 09:35:34 · 116 阅读 · 0 评论 -
MapReduce优化
1MapReduce 跑的慢的原因系统资源限制:内存、CPUI/O问题小文件太多超大文件不能切片Map和Reduce参数设置不合理Map运行太长,Reduce等待太久溢写次数太多merge合并次数太多2 MapReduce优化方法MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。数据输入:合并小文件:CombineTextInputFormatMap 阶段:减少溢写次数:增大内存存储上限,减少原创 2021-03-13 09:35:20 · 256 阅读 · 0 评论 -
MapReduce阶段的排序
MapReduce阶段的排序map阶段:全排序、二次排序、部分排序二次排序实现:对map端输出的key进行排序,实现compareTo方法。在compareTo方法中排序条件有两个。reduce阶段:分组排序原创 2021-03-13 09:35:15 · 243 阅读 · 0 评论 -
MapReduce工作流程
2.3 MapReduce工作流程整个MapReduce的重点Map阶段步骤1,已有数据,在`/user/input下步骤2,该节点主要是将解析出的key/value交给用户编写map()函数处理,并产生一系列新的key/value其实就是切片步骤3,提交信息:切片信息、xml、jar步骤4,由YARN调用Resourcemanager【Yarn RM】,Yarn RM创建Mr appmaster【一个job资源协调的老大;分配整个集群任务的调度和协调】,Mr appmaster根据步骤3原创 2021-03-13 09:35:07 · 741 阅读 · 0 评论 -
MapReduce的FileInputFormat实现类对比
FileInputFormat实现类对比类切片KV值TextInputFormat按块大小,小文件就是文件个数K:偏移量longWritable; V:这一行内容KeyValueTextInputFormat按块大小,小文件就是文件个数K:文件第一列 V:文件该行剩下的内容NLineInputFormat按N行切片。看N值,K: 偏移量; V:这一行内容CombineTextInputFormat与设置最大值有关,文件小于最大值,会将小文件合并到原创 2021-03-11 13:52:11 · 76 阅读 · 0 评论 -
HADOOP基础1
HADOOPHadoop是一个开源软件框架,用于存储大量数据,并发处理/查询在具有多个商用硬件(即低成本硬件)节点的集群上的那些数据。总之,Hadoop包括以下内容:HDFS(Hadoop Distributed File System,Hadoop分布式文件系统):HDFS允许你以一种分布式和冗余的方式存储大量数据。例如,1 GB(即1024 MB)文本文件可以拆分为16 * 128MB文件,并存储在Hadoop集群中的8个不同节点上。每个分裂可以复制3次,以实现容错,以便如果1个节点故障的话,原创 2021-03-11 13:49:46 · 90 阅读 · 0 评论 -
Hadoop端口号、配置文件
端口号2.x 50070 8088 19888 9000web端查看HDFS文件系统http://hadoop101:50070/dfshealth.html#tab-overview注意:如果不能查看,看如下帖子处理http://www.cnblogs.com/zlslch/p/6604189.htmldfs.namenode.http-address:50070SecondaryNameNode:辅助名称节点端口号:50090dfs.datanode.address:500原创 2021-03-11 13:45:43 · 716 阅读 · 0 评论 -
Centos7安装MySQL续2
接 Centos7安装MySQL遇到libaio问题一、安装MySql服务器1.安装mysql服务端[root@hadoop01 mysql-libs]# rpm -ivh MySQL-server-5.6.24-1.el6.x86_64.rpm有问题见文章 Centos7安装MySQL遇到libaio问题2、查看产生的随机密码[root@hadoop102 mysql-libs]# cat /root/.mysql_secretefC5PXPBafoMz3Zk3、查看mysql状态[原创 2021-03-08 18:27:50 · 52 阅读 · 0 评论 -
Centos7安装MySQL遇到libaio问题1
一、问题[root@localhost upload]# rpm -ivh MySQL-server-5.6.24a-1.rhel5.x86_64.rpmerror: Failed dependencies:libaio.so.1()(64bit) is needed by MySQL-server-5.6.24a-1.rhel5.x86_64libaio.so.1(LIBAIO_0.1)(64bit) is needed by MySQL-server-5.6.24a-1.rhel5.x86_64原创 2021-03-08 18:03:14 · 2248 阅读 · 0 评论 -
集群启动与停止
原创 2021-03-06 12:09:43 · 101 阅读 · 0 评论 -
集群环境配置
过程截图如下:原创 2021-03-06 12:07:53 · 128 阅读 · 0 评论