Hadoop
文章平均质量分 62
蓦然_
大数据开发,公众号:旧时光大数据
展开
-
Hadoop的mapper和reducer的个数如何确定?reducer的个数依据是什么?
FileInputFormat按照文件分割split,并且只会分割大文件,即那些大小超过HDFS块的大小的文件。如果HDFS中dfs.block.size设置为128m,而输入的目录中文件有100个,则划分后的split个数至少为100个。当块(dfs.block.size)为128m时,如果输入文件为128m,会被划分为1个split;分片是按照splitszie的大小进行分割的,一个split的大小在没有设置的情况下,默认等于hdfs block的大小。x为reduce的数量。原创 2023-06-11 22:15:44 · 349 阅读 · 0 评论 -
Hadoop总结——HDFS
Hadoop总结——HDFS原创 2022-11-22 17:23:43 · 1884 阅读 · 0 评论 -
Hadoop总结——Hadoop基础
Hadoop总结——Hadoop基础原创 2022-11-19 16:19:05 · 2712 阅读 · 0 评论 -
MapReduce工作原理详解
1)准备一个200M的文件,submit中对原始数据进行切片;2)客户端向YARN提交信息,YARN开启一个MrAppmaster,MrAppmaster读取客户端对应的信息,主要是job.split,然后根据切片个数(这里2个)开启对应数量的MapTask(2个);3)MapTask通过InputFormat去读取数据(默认按行读取),K是偏移量,V是一行内容,数据读取后交给Mapper,然后根据用户的业务需求对数据进行处理;4)数据处理之后输出到环型缓冲区(默认100M),环型缓冲区一边..原创 2021-07-28 16:49:05 · 355 阅读 · 0 评论 -
Hadoop集群崩溃的处理办法
1、停掉所有进程(NameNode和DataNode所有进程)2、删除每台机器hadoop-3.1.3下的data和logs3、在NameNode配置机器上格式化:hdfs namenode -format4、重新启动集群原创 2021-05-01 13:54:47 · 275 阅读 · 0 评论 -
Hadoop——数据压缩
Hadoop——数据压缩1、压缩概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadoop下,尤其是数据规模很大和工作负载密集的情况下,使用数据压缩显得非常重要。在这种情况下,I/O操作和网络数据传输要花大量的时间。还有,Shuffle与Merge过程同样也面临着巨大的I/O压力。 鉴于磁盘I/O和网络带宽是Hadoop的宝贵资源,数...原创 2020-02-05 22:11:55 · 165 阅读 · 0 评论 -
Hadoop——资源调度器YARN
YARN1、YARN概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。2、YARN基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成,如上图所示。各组件主要作用:1)Re...原创 2020-02-05 22:06:50 · 281 阅读 · 0 评论 -
Hadoop——分布式计算框架MapReduce
分布式计算框架MapReduce一、MapReduce概述 MapReduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。1、为什么要MapReduce 1)海量数据在单机上处理因为硬件资源限制,无法胜任 2...原创 2020-02-05 21:54:24 · 2164 阅读 · 0 评论 -
Hadoop——分布式计算框架MapReduce实践案例
三、MapReduce案例实操1、MapReduce核心编程思想 1)分布式的运算程序往往需要分成至少2个阶段 2)第一个阶段的maptask并发实例,完全并行运行,互不相干 3)第二个阶段的reduce task并发实例互不相干,但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出 4)MapReduce编程模型只能包含一个map阶段和一个reduce阶段,如果用户...原创 2020-02-05 21:53:21 · 2167 阅读 · 1 评论 -
Hadoop——HDFS的Java API操作
HDFS的Java API操作一、HDFS客户端环境准备1)根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径2)配置HADOOP_HOME环境变量和path路径二、HDFS的API操作新建Maven工程并添加依赖<dependencies> <dependency> <groupId>junit...原创 2020-02-05 21:39:17 · 411 阅读 · 0 评论 -
Hadoop——HDFS的Shell操作
HDFS的Shell操作1、基本语法bin/hadoop fs 具体命令 2、常用命令1、–ls:查看指定目录下内容hadoop fs –ls [文件目录] eg:hadoop fs –ls /user/wangkai.pt 2、–cat:显示文件内容hadoop dfs –cat [file_path] eg:hadoop fs -cat /user/wan...原创 2020-02-05 21:30:41 · 286 阅读 · 0 评论 -
Hadoop——分布式文件管理系统HDFS
Hadoop——HDFS一、HDFS概述1、产生背景 随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。2、概念 HDFS(Hadoop Distributed File System),它是一个文件系统,用于存...原创 2020-01-05 14:02:06 · 1406 阅读 · 0 评论 -
HDFS读写数据流程详解
HDFS写数据流程步骤:1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。4)NameNode返回3个datanode节点,分别为dn1、dn2、dn3。5)客户端...原创 2019-11-17 21:01:12 · 2316 阅读 · 0 评论 -
大数据概论
目录一、大数据概论 1、大数据概念2、大数据特点3、大数据应用场景4、大数据发展前景5、企业数据部的业务流程分析6、大数据部门组织结构二、从Hadoop框架讨论大数据生态1、Hadoop是什么2、Hadoop发展历史3、Hadoop三大发行版本4、Hadoop优势5、Hadoop组成(重点)5.1 HDFS架构概述5.2 YARN架...原创 2019-10-25 15:13:00 · 3982 阅读 · 0 评论