HADOOP
文章平均质量分 57
了解hadoop内部三大组件,hdfs,mapreduce,yarn的工作机制和原理
飞天小老头
这个作者很懒,什么都没留下…
展开
-
数据存储格式
ORC、Parquet原创 2022-12-21 17:38:47 · 2034 阅读 · 0 评论 -
ambai中tez任务占用yarn内存过多
计算资源调优原创 2022-10-24 22:51:43 · 2273 阅读 · 0 评论 -
DolphinScheduler执行sql提示 java.lang.RuntimeException: java.lang.ClassNotFoundException
dolphin使用原创 2022-08-17 15:07:59 · 1200 阅读 · 0 评论 -
DolphinScheduler安装部署
DolphinScheduler调度工具安装部署原创 2022-08-10 19:35:29 · 11623 阅读 · 4 评论 -
YARN批量杀死任务
yarn批量杀死任务原创 2022-07-29 11:11:19 · 2347 阅读 · 1 评论 -
sqoop从mysql导入数据到hive异常处理:不支持‘databasename.tablename‘方式
sqoop异常处理原创 2022-07-26 17:40:03 · 781 阅读 · 0 评论 -
sqoop无法连接到hiveserver2
sqoop无法连接hiveserver2解决方案原创 2022-07-26 16:17:02 · 536 阅读 · 0 评论 -
Ambari-2.7.4和HDP-3.1.4安装(附Ambari和HDP安装包)
文章目录1. 环境及软件准备2. 准备工作2.1 关闭防火墙2.2 配置域名映射2.3 配置免密2.4 时间同步2.4.1 时间服务器配置(root用户)2.4.2 其他服务器配置(root用户)2.5 安装JDK(所有节点)2.6 安装MySQL2.7 关闭SELinux3. 安装ambari3.1 配置ambari和hdp的yum源3.1.1 安装http3.1.2 开始配置ambari和hdp源3.2 配置和安装ambari-server3.2.1 安装ambari-server3.2.2 配置数据库原创 2022-02-16 14:52:21 · 7755 阅读 · 15 评论 -
org.apache.hadoop.hdfs.server.namenode.FSImage:Failed to load image fromFSImangeFile(file=fsimage..)
大数据平台环境:4节点,配置主副namenode状态:副namenode服务无法启动,主namenode和所有datanode状态正常通过查看hdfs的启动日志得知,是副namenode中的镜像文件除了问题,报错内容如下所示:org.apache.hadoop.hdfs.server.namenode.FSImage:Failed to load image fromFSImangeFile(file=fsimage_0000000000496112425).解决方法: 将大数据平台的服务停止,然原创 2022-01-06 16:03:11 · 1420 阅读 · 0 评论 -
sqoop出现ERROR tool.ImportTool: Import failed: java.io.IOException
21/11/08 12:13:10 ERROR tool.ImportTool: Import failed: java.io.IOException: Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the correspond server addresses. at org.apache.hadoop.mapreduce.Cluster.initial原创 2021-11-08 12:23:32 · 6056 阅读 · 1 评论 -
Datax-web版安装(含安装包)
文章目录Datax-web安装环境准备安装Datax安装Data-web启动datax-web软件资源Datax-web安装环境准备MySQL (5.5+) 必选,对应客户端可以选装, Linux服务上若安装mysql的客户端可以通过部署脚本快速初始化数据库JDK(1.8.0_xxx)必选DataX 必选Python(2.x)(支持Python3需要修改替换datax/bin下面的三个python文件,替换文件在后面有提供)必选,主要用于调度执行底层DataX的启动脚本,默认的方式是以Jav原创 2021-08-17 18:16:32 · 7243 阅读 · 14 评论 -
Presto安装
Presto安装文章目录Presto安装1 环境及安装包准备2 安装2.1 安装2.2 配置2.2.1 Presto属性配置2.2.2 Connector配置3 Presto客户端命令行使用3.1 启动3.2 客户端连接1 环境及安装包准备1). 安装presto前准备java环境最低JDK1.8.0_1512). Presto安装包presto-server-0.259.tar.gz下载3). Presto客户端jar包presto-cli-0.259-executable.jar下载2 安装原创 2021-08-13 18:24:41 · 2507 阅读 · 0 评论 -
Mapreduce的wordcount写法
Mapreduce的wordcount写法Mapreduce是一种编程模型,负责海量数据的运算,会在不同的节点进行分布式数据的运算,这样就可以极大的提高运算的效率,以便于进行数据的分析.当mapreduce运启动后,首先会运行众多的map task,当map task处理完自己的数据之后,还需要启动众多的reduce task,这个时候如果用户通过自己手动启动的话并不科学,所以这个时候需要一个自动化的调度平台,hadoop就为运行mapreduce类的分布式计算程序开发了一个自动化调度平台—yarn。原创 2020-11-20 22:15:46 · 380 阅读 · 0 评论 -
MR在YRAN上运行机制
首先客户端会向ResourceManager发送运行程序的请求,发送的信息中也包含了(容器的参数规格等信息).ResourceManager在接收到客户端的请求后,会返回给客户端一个jobid和将程序资源存到hdfs中的位置信息(将信息存到hdfs中可以方便其他节点下载数据).客户端在接收到请求后,会将程序的资源信息(job.xml,job.split,jar)上传到hdfs中.客户端在上传成功后,会将上传成功的信息反馈给ResourceManager.ResourceManager在接受到程序资.原创 2020-07-06 21:02:31 · 289 阅读 · 0 评论 -
MR分布式程序详细内部工作流程
mr程序分为map端和reduce端,来进行处理数据,mr程序在运行的时候最先启动的程序就是MRAppMaster,MRAppMaster是可以读到在job提交的时候的参数信息,所以它可以根据参数信息,来启动对应数量的maptask和reducetask,在maptask启动后,会读取自己对应的任务切片,以逐行读取的方式,一个K,V执行一次map()方法,K为起始偏移量,V为行内容在map()方法执行完一次后,会将数据写入到环形缓冲区中,当环形环形缓冲区中的数据存储达到80%的时候,就会进行分区,排序,.原创 2020-07-05 17:47:40 · 1447 阅读 · 0 评论 -
HDFS的数据上传和下载流程
1. 数据的上传流程在hdfs中客户端要上传文件首先要向namenode发起请求namenode会根据上传文件的信息和集群存储状态信息进行规划元数据.在namenode规划完元数据后,会将请求成功的信息和元数据信息传递给客户端在客户端接收到namenode的元数据信息后,首先会进行解析元数据信息,然后会根据元数据信息的内容,将文件进行分块上传,在上传文件之前,首先会跟所要上传文件的datanode请求建立连接通道datanode接收到客户端的请求后,通道建立成功,并且将成功的信息返回给客户端在原创 2020-07-04 22:39:24 · 1447 阅读 · 1 评论 -
Hdfs的Java客户端API简单使用
package com.jin.demo;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.InputStreamReader;import java.io.OutputStreamWriter;import java.net.URI;import java.util.Arrays;import java.util.Date;import org.apache.hadoop.conf.Conf原创 2020-06-14 14:05:31 · 265 阅读 · 1 评论 -
HDFS简介
HDFS简介概念及特点 hdfs是一个分布式文件系统,可以将海量的数据存储在不同的机器中,解决了单台机器无法存储超大数据的问题. hdfs是以master-slave形式存在,一个集群存在一个master(namenode)节点和若干个slave(datanode)节点,主节点负责存储元数据信息以及任务分配,从节点则负责存储实际的数据 在hdfs中数据是以块(block)的形式进行存储的,在客户端进行请求存储数据时,主节点会根据数据的大小将数据进行切块,然后将block分别存储在不同的name原创 2020-06-14 13:38:05 · 485 阅读 · 0 评论
分享