Hadoop
文章平均质量分 83
小唐同学爱学习
Be all you can be!保持学习,持续前行!
展开
-
Hadoop之Yarn篇
(7) NodeManger创建容器,任何任务的执行都是在容器中执行的(容器中有cpu+ram--网络资 源),并且在容器中启动了一个MRAppmaster。(3): 提交job运行所需要的资源(Job.spilt Job.xml wc.jar )(按照(2)中提供的路径进行上传)(10) 领取任务,创建MapTask容器(NodeManager)(cpu+ram+jar)(4) 资源提交完毕后,申请运行mrAppMaster (程序运行的老大)原创 2023-03-29 14:43:02 · 1697 阅读 · 10 评论 -
hadoop之MapReduce框架原理
MapReduce是分为两个阶段的,MapperTask阶段,和ReduceTask阶段。Mapper阶段,可以通过选择什么方式(K,V的选择对应不同的方法)来读取数据,读取后把数据交给Mapper来进行后续的业务逻辑(用户写),让后进入Reduce阶段通过Shuffle来拉取Mapper阶段的数据,让后通过OutputFormat(等方法)来写出(可以是ES,mysql,hbase,文件)原创 2023-03-27 20:34:18 · 1538 阅读 · 22 评论 -
Hadoop之Mapreduce序列化
反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么要序列化:一般来说,“活的”对象只生存在内存里,关机断 电就没有了。而且“活的”对象只能由本地的进程使用,不能被发送到网络上的另外一台计算机。然而序列化可以存储“活的”对象,可以将“活的”对象发送到远程计算机。在开发过程中,基本序列化类型不能满足所有需求,比如在Hadoop框架内部传递一个bean对象不是基本的数据类型(某个类)----没有对应的Hadoop类型那么。原创 2023-03-20 19:43:51 · 4237 阅读 · 14 评论 -
MapReduce之WordCount案例实操
本次测试为本机测试,通过maven导入Hadoop的包来进行的 输入输出文件的路径为本地路径,而我们在企业开发中一般是在windows上编写,打包发送到Linux上,如果执行任务较多 后期会编写脚本执行程序。准备工作 创建工程后先改maven仓库的地址(创建工程后默认为idea自带的仓库**提示 在你打开别的项目后,在你重新打开本项目的时候,maven会改回idea的maven)让后在 项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”原创 2023-03-18 15:14:12 · 1323 阅读 · 13 评论 -
HDFS的API操作
使用注解@Test进行测试,调用的还是Linux中的mkdir 让客户端连接对象进行调用(**注意 这里 客户端连接对象要在类的上方使用private进行定义,方便在下方方法中的调用)返回值:返回的形式是迭代器(迭代器是一种设计模式,官方话不多数,说一下自己的理解可能不贴切---个人认为迭代器就像把数据封装成一个数据库一样,包含各种属性,每一条信息就是一个元组)文件移动分为很多,根据参数的不同,做出不同的操作,都是调用rename方法。文件和文件夹的判断也分为两种,一种是可迭代的,一种是不可迭代的。原创 2023-03-15 15:21:57 · 2310 阅读 · 7 评论 -
Hadoop入门常见面试题与集群时间同步操作
所有的机器与这台集群时间进行定时的同步,生产环境根据任务对时间的准确程度要求周期同步。systemctl is-enabled ntpd ----设置开机是否启动ntpd服务。systemctl start ntpd ------开启时间服务器。systemctl status ntpd ------检查时间服务器是否打开。,必须要配置集群时间同步,否则时间久了,会产生时间偏差,导致集群执行任务时间不同步。增加内容如下(让硬件时间与系统时间一起同步---硬件时间更准确)(能连接外网),可以。原创 2023-03-11 16:05:03 · 697 阅读 · 0 评论 -
hadoop的补充配置与常用脚本
hadoop102:10020是表示历史服务器配置在那台服务器上,并且内部端口为10020(集群内部所用的访问端口)(启动历史服务器之前可以先关闭所有服务,在重启Hadoop服务,在启动历史服务器)创建完毕后要对他的权限进行修改(赋予脚本执行权限),不然权限不足,不是可执行脚本。每个服务器上都有一个日志,你想看集群上的日志就需要对他进行聚集到hdfs上。mapred --daemon 启动守护进程(或者是在后台启动)为了查看程序的历史运行情况,需要配置一下历史服务器。原创 2023-03-10 13:57:20 · 915 阅读 · 5 评论 -
Hadoop崩溃处理
2.删除集群上每个服务器的data和logs目录(删除历史数据)进入hadoop的安装路径(etc,bin目录不受破坏)以上操作完成格式化(数据清空)1.杀死进程(停止进程)原创 2023-03-09 18:43:32 · 128 阅读 · 1 评论 -
大数据技术之Hadoop集群配置
作者简介:大家好我是小唐同学(๑>原创 2023-03-05 13:38:05 · 1867 阅读 · 2 评论 -
hadoop的运行模式
目录hadoop的三种运行模式区别:完全分布式运行模式步骤:一,虚拟机准备:二,编写集群分发脚本xsync (1)scp定义: (2)基础语法:(1)按照上述语法进行拷贝jdk(2)按照上述语法拷贝Hadoop(第二种方法)(3)拷贝也可以让Hadoop103操作 从Hadoop102中拷贝入Hadoop104 三,rsync远程同步工具rsync语法:ssh免密登录:免密登录原理:编辑ssh免密登录实操:1.准备三台客户机(关闭防火墙,静态IP,主机名)2.安装jdk3.配原创 2023-03-02 16:57:49 · 3529 阅读 · 6 评论