hadoop
文章平均质量分 57
冰上浮云
JAVA程序员,现在从从事大数据平台开发工作,关注大数据&人工智能,希望在编程的路上结交各路英豪。
展开
-
Java代码拉取HDFS的fsimages
HDFS的fsimages是hdfs准实时状态镜像文件,里面包含hdfs文件大小等元数据信息,直接拉取该文件分析,比通过hdfs命令或者接口拉取分析hive表文件大小等信息消耗的资源要小很多。下面是通过java客户端的DFSAdmin拉取HDFS的fsimages文件代码。public File fetchImage(File dir) throws IOException { new DFSAdmin(conf).fetchImage(new String[]{"-fetchImage", d原创 2021-02-09 21:58:34 · 516 阅读 · 1 评论 -
win10编译hadoop3.2.1
概述搞大数据,hadoop是核心组件,因为开源,并且体现庞杂,难免遇到一些坑,在遇到问题的时候很多情况下就需要来翻源码,如果有bug还得改改bug然后重新编译。所以在windows上编译hadoop还是需要弄一下的。hadoop不像一般的那些java小项目,maven编译命令一跑,就把源码给你编译成jar包了。hadoop里面依赖的东西比较多,所以在windows下编码相对来说还是比较麻烦的。hadoop源码根目录有一个BUILDING.txt文件,里面有各个平台的编译指引,windows下的编译指引是原创 2020-05-28 23:37:50 · 2987 阅读 · 5 评论 -
hadoop 文件上传
hdsf 本质上就是一个分布式文件系统,只是相对于普通计算机来说,它可以很容易横向扩展,自带高可用机制。我们要在Hadoop做MapReduce计算的时候,就需要把写好的程序打成jar包放到hdfs上。hadoop提供多种方式方式让你能够把文件放入hdfs,比如 自带的shell命令行客户端put命令,java客户端的FileSystem,REST的HDFS API(WebHDFS与HttpFS...原创 2020-02-01 21:54:22 · 12981 阅读 · 0 评论 -
YARN资源调度策略之Fair Scheduler
目的这篇文章是对公平调度器(FairScheduler)的说明,它是hadoop的一个可插拔的调度器,目的是让应用程序在YARN上能够公平的共享巨大的集群资源。介绍公平调度是一种将资源分配给应用程序的方法,这样所有应用程序平均都能在一段时间内获得相同的资源份额。Hadoop NextGen能够调度多个资源类型。默认情况下,Fair调度器仅基于内存来进行公平性决策。利用Ghodsi等人提出的占...翻译 2020-01-30 14:33:13 · 1618 阅读 · 0 评论 -
hive自定义函数(UDF)
概述用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户可以使用Java编写自己的UDF,一旦将用户自定义函数加入到用户会话中(交互式的或者通过脚本执行的),它们就将和内置的函数一样使用,甚至可以提供联机帮助。Hive具有多种类型的用户自定义函数,每一种都会针对输入数据执行特定“一类”的转换过程。在ETL处理中,一个处理过程可能包含多个处理步骤。Hive语言具有多种方式来将...原创 2020-01-29 21:41:32 · 8924 阅读 · 2 评论 -
Fair Scheduler与Capacity Scheduler比较
1、Fair SchedulerFacebook开发的适合共享环境的调度器,支持多用户多分组管理,每个分组可以配置资源量,也可限制每个用户和每个分组中的并发运行作业数量;每个用户的作业有优先级,优先级越高分配的资源越多。2、Capacity SchedulerYahoo开发的适合共享环境的调度器,支持多用户多队列管理,每个队列可以配置资源量,也可限制每个用户和每个队列的并发运行作业数量,也可...转载 2020-01-28 15:01:08 · 1266 阅读 · 0 评论 -
YARN资源调度策略之Capacity Scheduler
什么是capacity schedulerCapacity Scheduler调度器以队列为单位划分资源。简单通俗点来说,就是一个个队列有独立的资源,队列的结构和资源是可以进行配置的,如下图:default队列占30%资源,analyst和dev分别占40%和30%资源;类似的,analyst和dev各有两个子队列,子队列在父队列的基础上再分配资源。队列以分层方式组织资源,设计了多层级别的...转载 2020-01-28 13:28:58 · 4299 阅读 · 2 评论 -
Yarn资源调度系统详解
1、Yarn介绍Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式,不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架,比如spark框架,不再强迫使用MapReduce框架。从ha...转载 2020-01-27 15:40:27 · 3491 阅读 · 0 评论 -
Hadoop集群安装
背景介绍最近研究大数据,hadoop属于大数据中很基础的组件,如果需要深入了解,还是得先知道怎么安装部署,方便后续查阅。本操作步骤详细记录hadoop分布式集群环境的搭建过程。实验环境实验环境:Win7下vmware虚拟机操作系统:CentOS 6.5 x64JDK:jdk-8u161-linux-x64Hadoop:hadoop-2.7.5系统规划准备3个节...原创 2018-03-05 22:04:13 · 575 阅读 · 0 评论