Hadoop
小董_不长肉
这个作者很懒,什么都没留下…
展开
-
教你在Hadoop集群上安装MySQL
为什么我们前面在Hadoop集群上安装了Hive之后还要再安装MySQL呢。因为,Hive默认使用的元数据库为derby,开启Hive之后就会占用元数据库,并且他不与其他客户端共享数据,我们为了将数据共享给其他客户端就需要修改Hive的元数据地址为MySQL。这样就解决了数据不能共享给其他客户端的问题了,这也就是我们为什么要在Hadoop集群上安装MySQL。拷贝驱动:在上一篇安装Hive的时候就已经将mysql的驱动包进行了上传,现在就可以直接进行操作了指令:cp /opt/software/m原创 2021-09-13 20:25:08 · 1862 阅读 · 0 评论 -
手把手教你安装Hive
首先我们先要讲hive和mysql的压缩包和驱动传输到hadoop集群上也就是下图的三个:上图资源获取方式:链接:https://pan.baidu.com/s/18yEMWcs1ViyxNg8x5rhyvA提取码:7cg7将上述三个放在集群的/opt/software路径上。对hive的压缩包进行解压 并且解压到/opt/module目录之下然后进入到module目录下将 apache-hive-3.1.2-bin.tar.gz 改名为 hive指令:mv apache-hive-3原创 2021-09-12 21:12:08 · 288 阅读 · 0 评论 -
Hadoop——Yarn
提到Hadoop大家最先想到的就是MapReduce(运算程序)和HDFS(文件管理系统),其实Hadoop还有一个极为重要的组件Yarn。首先我们先看一下Yarn的基本结构图:从图中看到Yarn的基本结构由:ResourceManager、NodeManager、AppMstr和Container四个组件组成。ContainerContainer(容器)这个东西是Yarn对资源做的一层抽象。就像是我们平时对经常用的一些东西进行封装一样,只需要提供一个调用的接口,Yarn对资源的管理也应用到了这种原创 2021-09-08 21:58:22 · 123 阅读 · 0 评论 -
Hadoop——MapJoin(减少数据倾斜)
首先,先说一下当前了解到的一个适用MapJoin的场景吧:比如我们此时手中有两个表需要我们进行处理,但是呢一个很大,一个很小。那么这个时候我们比较适合使用MapJoin进行处理。那么我们具体是怎么实现MapJoin的这个操作的呢?:我们可以在map端对小的那个表先进行缓存,提前在map端将数据进行处理,那么这么做有什么好处呢,我们可以减少reduce端的压力、加快数据传输的速度、尽可能的减少reduce端出现数据倾斜(暂时个人理解为:因为每个map端的大小是可以设置的默认是128M,在map端进原创 2021-09-07 17:49:39 · 306 阅读 · 0 评论 -
Hadoop——ReduceJoin
首先先说一下今天发现的一个之前一直理解错的一个问题:之前学习过wordcount的案例,它是在map阶段输入a a a 这样一行出现了3个a单词以\t进行划分,然后以<a,1>这样的三个键值对作为reduce阶段的输入,每一次的reduce阶段接受相同的key的键值对,然后以for循环的形式进行累加达到wordcount的目的。当然在for循环之前需要定义一个sum变量用以计量每一个传入的键有多少次,这个例子在reduce阶段完成之后的输出是<a,3>。然后在今天学习reduce原创 2021-09-06 22:29:09 · 260 阅读 · 0 评论 -
Hadoop——Partitioner
Partitioner的作用:对map端输出的数据key作一个散列,使数据能够均匀分布在各个reduce上进行后续操作,避免产生热点区。为什么要创建分区?我们如果文件很大,我们只使用一个reducer,这个reducer就要负责去所有map端取数据。那么势必会带来性能问题,而且服务器资源也没有合理利用起来。如果要合理利用,则需要多起几个reducer,那这几个reducer去map端拉取整个文件,这样的话就有这样一个问题:相同的key可能分布在不同map机器或者map文件中,每一个reduce原创 2021-09-05 19:18:33 · 173 阅读 · 0 评论 -
Hadoop-MapReduce序列化-笔记
什么是序列化和反序列化:序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便存储到磁盘(持久化)和网络传输。将内存中的对象以字节序列读取到内存,并构造成对应的对象。反序列化 就是将收到的字节序列,转换成内存中的对象。...原创 2021-09-02 17:46:19 · 112 阅读 · 0 评论 -
Hadoop中的reduce会等待所有mapper执行后才执行吗,还是会和mapper一起混合执行?
在mapreduce原始论文中,原型是等map worker运行完后,master再通知reduce worker去拉取数据,去运行。然而,在hadoop中,map-reduce阶段可以设置为重叠。也就是说,Reduce分为了两个阶段,一个是shuffle,一个是reduce。也就是分为从map那拉取数据,以及运行用户定义的reduce程序两个阶段。而我们所说的重叠,就是指reduce从map那拉取数据这个阶段。并且在同一个job中,reduce会等它所有分配的map执行完后才开始执行,map的输出是r原创 2021-08-30 08:10:12 · 575 阅读 · 0 评论 -
Hadoop——MapReduce——wordcount
刚开始接触MapRecude还不是太理解只是知道了些大概的流程。暂时先记下当作笔记。下面是依据java实现wordcount的代码:WordCountMapperpackage com.atguigu.mapreduce.wordcount2;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.a原创 2021-08-29 21:06:08 · 148 阅读 · 0 评论 -
Map Reduce出错之Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster
在Hadoop环境下进行MapReduce的wordcount操作出现异常,显示为:经过查询日志发现,出现的异常为:解决方法:首先在命令行下输入命令,并将返回的地址复制hadoop classpath然后编辑hadoop下的yarn-sit.xml并且添加如下内容<configuration> <property> <name>yarn.application.classpath</name> &l原创 2021-08-29 20:56:21 · 788 阅读 · 1 评论 -
Hadoop——Configuration类详解
转自:http://blog.csdn.net/ghuilee/article/details/457710031.configuration类简介Hadoop没有使用java.util.Properties管理配置文件,也没有使用Apache Jakarta Commons Configuration管理配置文件,而是使用了一套独有的配置文件管理系统,并提供自己的API,即使用org.apache.hadoop.conf.Configuration处理配置信息。这个类是作业的配置信息类,任何作用的配置转载 2021-08-03 21:11:33 · 2463 阅读 · 0 评论 -
手把手教你hadoop集群配置(详细)
本博客用到的虚拟机客户机已将前五步完成,从6)开始现有三台客户机,hadoop112,hadoop113,hadoop114。其中hadoop112已完成JDK、Hadoop的安装以及环境变量的配置。所以需要将112上的两者复制到113和114上。1、将JDK用scp方法从112复制到113上scp -r jdk1.8.0_212/ dlw@hadoop113:/opt/module/从113上查看结果,显示出JDK已存在则证明复制成功。2、将hadoop用scp方法从112上拉到113中.原创 2021-07-24 22:31:32 · 3820 阅读 · 6 评论 -
批量启动关闭hdfs、yarn、historyserver的shell脚本
在/root/bin的目录下创建 vim myhadoop.sh并写入一下shell脚本#!/bin/bashif [ $# -lt 1 ]then echo "No Args Input..." exit;ficase $1 in"start") echo " ==================== 启动 hadoop集群 ====================" echo " ------------------- 启动 hdfs原创 2021-05-31 11:15:06 · 477 阅读 · 0 评论 -
jps 报process information unavailable解决办法
今天在用脚本批量关闭yarn、dfs、historyserver的时候检查关闭的结果时发现hadoop104中有一个进程无法关闭然后就百度了一下:解决方案1、进入tmp目录下2、cd /tmp3、删除该目录下的 hsperfdata_{username}的文件夹4、然后jps就干净了。...原创 2021-05-31 11:09:34 · 362 阅读 · 0 评论 -
Hadoop 历史服务器配置
Hadoop自带了一个历史服务器,可以通过历史服务器查看已经运行完的Mapreduce作业记录,比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。历史服务器配置:1、在当前路径下打开mapred-site.xml(修改实际ip地址)2、分发配置:xsync mapred-site.xml3、启动历史服务器:mapred --daemon start historyserver4、查看历史服务器是否启动: http://ip:19888/jobhist原创 2021-05-30 17:52:45 · 311 阅读 · 4 评论