Hadoop
文章平均质量分 85
XK&RM
这个作者很懒,什么都没留下…
展开
-
MapReduce--Shuffle 详解、压缩使用、数据倾斜解决方案、参数调优
MapReduce--Shuffle 详解、压缩、数据倾斜解决方案原创 2020-12-14 15:14:28 · 615 阅读 · 0 评论 -
Hadoop HA 详解
Hadoop HA 详解原创 2020-12-14 10:30:32 · 555 阅读 · 0 评论 -
MapReduce--MapJoin、ReduceJoin、TopN
MapReduce--MapJoin、ReduceJoin、TopN1. MapReduce JoinJoin分为两种:一种是Map Join,一种是Reduce Join MapJoin 指的是在Map端进行Join,没有Reduce,所以没有Shuffle ReduceJoin 指的是在Reduce端进行Join,存在Reduce,存在Shuffle 在大数据领域经常听到数据倾斜这个词,数据倾斜的原因是由于某个Key的数量过...原创 2020-12-09 18:29:21 · 185 阅读 · 0 评论 -
MapReduce--自定义全局Sort、分区Sort
MapReduce--自定义全局Sort、分区Sort1 SortSort发生在Map之后Reduce之前 数据经过MapRedcue处理,首先经过Map阶段,然后经过Shuffle阶段 在Shuffle阶段,会对数据进行分割(spilt)、分区(partitioner)、排序(sort)、合并(combine)、压缩(compress)、分组(group)之后输出到Reduce端2 自定义 MapReduce 全排2.1 需求...原创 2020-12-09 14:49:06 · 205 阅读 · 0 评论 -
MapReduce--OutputFormat详解以及实现自定义OutputFormat
MapReduce--OutputFormat详解以及实现自定义OutputFormat1. OutputFormat源代码解析MapReuce OutputFormat 输出一般输出到:文件里面或者数据库中,今天就对常用的OutputFormat来分析一下 OutputFormat中的源代码/** * <code>OutputFormat</code> describes the output-specification for a ...原创 2020-12-08 11:17:13 · 560 阅读 · 0 评论 -
MapReduce--partitioner、combiner 详解以及实现自定义partitioner
MapReduce partitioner 详解未完待续....原创 2020-12-07 15:19:06 · 425 阅读 · 0 评论 -
MapReduce--InputFormat 源码解析以及常用的类型
MapReduce--InputFormat 源码解析以及常用的类型1 MapReduce 源代码读取数据如何分片waitForCompletion{ submit{ submitter.submitJobInternal(Job.this, cluster){ // 来判断读取目标文件需要设置多少分片 int maps = writeSplits(job, submitJobDir...原创 2020-12-04 14:20:18 · 265 阅读 · 0 评论 -
MapReduce build-in 数据类型以及自定义数据类型
MapReduce build-in 数据类型以及自定义数据类型1 MapReduce build-in 数据类型MapReduce 作为一个分布式计算框架,数据类型则需要需要实现序列化,Java实现序列化,需要implements Serializable,MapReduce 定了一个自己的基础的数据类型 -- Writable,是可以实现序列化的BooleanWritable:Booleanpublic class BooleanWritable...原创 2020-12-03 10:56:43 · 183 阅读 · 0 评论 -
MapReduce--WC案例以及初识源代码
MapReduce--WC案例以及初识源代码1 MapReduce 介绍Hadoop 官网MapReduce 是一个基于Google的同名论文开发出来的。 MapReduce 是一个计算框架。 MapReduce 是一个高性能的分布式计算框架,用于对海量数据进行并行分析和处理1.1 MapReduce 优点MapReduce适合于离线计算/批计算 MapReduce编程对于自己实现分布式而言是要简单的 扩展性强...原创 2020-12-02 20:28:40 · 507 阅读 · 0 评论 -
HDFS 常见API使用及编程
HDFS 常见API使用及编程1 pom 文件增加依赖<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client...原创 2020-12-01 14:42:48 · 266 阅读 · 0 评论 -
Hadoop生态圈常用端口
Hadoop生态圈常用端口HDFS:50070 HDFSWEBUI端口:8020 HDFS内部端口:8088 Yarn的WEBUI接口:8032 NameNode:9000 .SecondaryNameNode:50090 DataNode:50010 历史服务器Web端口:19...原创 2019-05-15 21:24:12 · 269 阅读 · 0 评论 -
HdfsApi中copyToLocalFile中报空指针
HdfsApi中copyToLocalFile中报空指针环境:Hadoop2.6.0-cdh5.16.2、jdk1.8代码:package com.xk.Hdfs;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import java.n...原创 2020-07-09 23:23:50 · 385 阅读 · 0 评论 -
Hadoop总结
Hadoop总结本文说的Hadoop主要是分析2X,Hadoop可以分成HDFS、YARN、MapReduceHadoop官网:http://hadoop.apache.org既然是个分布式计算框架,首先要有一个分布式存储软件HDFS,那么存储有了,...原创 2020-03-23 21:08:03 · 309 阅读 · 0 评论 -
YARN调度器详解
YARN调度器详解一.先介绍下yarn有哪些调度器:FIFO 先进先出 Capacity 计算 Fair 公平二.这些调度器有什么差异FIFO:意思就是谁的job先执行就会占用当前的所有资源,直到这个job执行结束之后才会执行下一个job,再生产上面不推荐,因为如果我凌晨一点执行了一个大型的job需要跑四...原创 2019-12-14 17:34:51 · 436 阅读 · 0 评论 -
YARN的调优参数
YARN的调优参数一.Container概念Container我个人理解成一块虚拟的空间,是由menory和vcore一起组成的vcore这个概念是由yarn提出来的,为了防止在一个集群里面的各个机器的core性能不一致才提出这个概念,这指的是一个虚拟化的core,如果在同一个集群里面一台机器的CPU处理性能很好...原创 2019-12-14 17:14:46 · 873 阅读 · 0 评论 -
文件格式和压缩格式介绍
文件格式和压缩格式介绍一.常用的文件存储格式TEXTFILE textfile为默认格式,存储方式为行式存储,在检索时磁盘开销大 数据解析开销大,而对压缩的text文件 hive无法进行合并和拆分 SEQUENCEFILE 二进制文件,以<key,value>的形式序列化到文件中,存储方式为行式存储,可以对文件进...原创 2019-12-14 16:17:56 · 783 阅读 · 0 评论 -
MapReduce详解(二)
MapReduce详解(二)今天介绍的主要是运行环境是MR ON YARN一.MR详解 MR是Hadoop里面的一种计算框架map:映射shuffle:洗牌reduce:聚合既然是计算框架,那肯定有数据输入端、数据输出端,首先先把数据通过input split ,切分成一个个分片,一个分片对应...原创 2019-12-14 14:59:10 · 176 阅读 · 0 评论 -
Hadoop--HDFS详解(三)
Hadoop--HDFS详解(三)一.副本放置策略HDFS的副本放置个数是由dfs.replizhuangtacation 这个参数配置的,dfs.replication默认值是3,在生产环境下默认三个就可以了。三个副本的存放位置: 1.如果上传文件的节点存在dn,第一份副本则存放在本节点上面,如果上传文...原创 2019-12-06 21:25:37 · 1083 阅读 · 0 评论 -
Hadoop--HDFS详解(二)
Hadoop--HDFS详解(二)前言:HDFS详解(一):https://blog.csdn.net/qq_41301707/article/details/84780505 已经把HDFS的基础介绍完了,这里主要是把一些HDFS里面比较重点的一些东西记录一下一.block介绍:HDFS会将文件分割成block,每个...原创 2019-12-02 22:53:53 · 771 阅读 · 0 评论 -
hadoop-2.6.0-cdh5.16.2部署
hadoop-2.6.0-cdh5.16.2部署1.首先先下载tar包并解压[hadoop@xkhadoop software]$ wget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.16.2/[hadoop@xkhadoop software]$ ll总...原创 2019-11-29 23:52:18 · 1791 阅读 · 1 评论 -
Hadoop-MapReduce+Yarm部署
Hadoop-MapReduce+Yarm部署1.Yarn部署[hadoop@xkhadoop hadoop]$ cd etc/hadoop/[hadoop@xkhadoop hadoop]$ cp mapred-site.xml.template mapred-site.xml先备份[hadoop@xkhad...原创 2018-11-25 16:16:14 · 177 阅读 · 0 评论 -
MapReduce详解(一)
MapReduce详解(一)MapReduce:hadoop1.x MR1(计算+资源作业调度)hadoop2.x MR2(计算) + Yarn(资源调度)MR1进程:JobTrackerTaskTracker: map task 、reduce taskMR2: 写代码打成jar...原创 2018-12-05 22:23:20 · 156 阅读 · 0 评论 -
Yarn详解
Yarn详解1.Yarn架构设计(MR的提交到Yarn流程)RM: 调度器+APPS ManagerNM: Container(容器): 1个NM-->多个容器-->只能运行一个task APP Master|map task | re...转载 2018-12-08 22:35:31 · 194 阅读 · 0 评论 -
HDFS详解(一)
HDFS详解(一)1.三个进程NameNode (NN): 名称节点 --》client(客户机)第一个操作的对象DataNode (DN): 数据节点 --》存储数据的Secondary NameNode(SNN): 第二名称节点2.block(数据块)大小:64M12...原创 2018-12-03 22:06:52 · 482 阅读 · 0 评论 -
Hadoop-2.6.0-cdh5.7.0 部署
下载Hadoop和JDK下载Hadoop地址:http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0.tar.gz下载jdk:推荐1.8版本[xkhadoop@hadoop software]$ weget http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5....原创 2019-03-27 20:45:47 · 515 阅读 · 0 评论 -
Hadoop HDFS 出现 WARN Unable to load native-hadoop library for your platform解决方法
在开启Hadoop的时候出现这个报错[xkhadoop@xkhadoop sbin]$ hadoop fs -ls /19/04/16 11:20:40 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where a...原创 2019-04-16 15:17:00 · 366 阅读 · 0 评论 -
Hadoop-HDFS部署
Hadoop-HDFS部署 Hadoop2.X: hadoop.apache.orgHDFS: 分布式文件系统,存储MapReduce: 分布式计算Yarn: 资源(memory+cpu)和JOB调度监控文档地址: http://hadoop.apache.org/docs/r2.8.2/部署方式:...原创 2018-11-18 18:34:04 · 192 阅读 · 0 评论