bigdata
文章平均质量分 57
冰上浮云
JAVA程序员,现在从从事大数据平台开发工作,关注大数据&人工智能,希望在编程的路上结交各路英豪。
展开
-
hive thrift guid 和operationId映射关系
hive thrift guid和hiveserver2 监控页面operationId映射逻辑。原创 2022-05-04 08:20:34 · 991 阅读 · 0 评论 -
Java代码拉取HDFS的fsimages
HDFS的fsimages是hdfs准实时状态镜像文件,里面包含hdfs文件大小等元数据信息,直接拉取该文件分析,比通过hdfs命令或者接口拉取分析hive表文件大小等信息消耗的资源要小很多。下面是通过java客户端的DFSAdmin拉取HDFS的fsimages文件代码。public File fetchImage(File dir) throws IOException { new DFSAdmin(conf).fetchImage(new String[]{"-fetchImage", d原创 2021-02-09 21:58:34 · 529 阅读 · 1 评论 -
hadoop 文件上传
hdsf 本质上就是一个分布式文件系统,只是相对于普通计算机来说,它可以很容易横向扩展,自带高可用机制。我们要在Hadoop做MapReduce计算的时候,就需要把写好的程序打成jar包放到hdfs上。hadoop提供多种方式方式让你能够把文件放入hdfs,比如 自带的shell命令行客户端put命令,java客户端的FileSystem,REST的HDFS API(WebHDFS与HttpFS...原创 2020-02-01 21:54:22 · 13064 阅读 · 0 评论 -
YARN资源调度策略之Fair Scheduler
目的这篇文章是对公平调度器(FairScheduler)的说明,它是hadoop的一个可插拔的调度器,目的是让应用程序在YARN上能够公平的共享巨大的集群资源。介绍公平调度是一种将资源分配给应用程序的方法,这样所有应用程序平均都能在一段时间内获得相同的资源份额。Hadoop NextGen能够调度多个资源类型。默认情况下,Fair调度器仅基于内存来进行公平性决策。利用Ghodsi等人提出的占...翻译 2020-01-30 14:33:13 · 1641 阅读 · 0 评论 -
hive自定义函数(UDF)
概述用户自定义函数(UDF)是一个允许用户扩展HiveQL的强大的功能。用户可以使用Java编写自己的UDF,一旦将用户自定义函数加入到用户会话中(交互式的或者通过脚本执行的),它们就将和内置的函数一样使用,甚至可以提供联机帮助。Hive具有多种类型的用户自定义函数,每一种都会针对输入数据执行特定“一类”的转换过程。在ETL处理中,一个处理过程可能包含多个处理步骤。Hive语言具有多种方式来将...原创 2020-01-29 21:41:32 · 9006 阅读 · 2 评论 -
Fair Scheduler与Capacity Scheduler比较
1、Fair SchedulerFacebook开发的适合共享环境的调度器,支持多用户多分组管理,每个分组可以配置资源量,也可限制每个用户和每个分组中的并发运行作业数量;每个用户的作业有优先级,优先级越高分配的资源越多。2、Capacity SchedulerYahoo开发的适合共享环境的调度器,支持多用户多队列管理,每个队列可以配置资源量,也可限制每个用户和每个队列的并发运行作业数量,也可...转载 2020-01-28 15:01:08 · 1276 阅读 · 0 评论 -
YARN资源调度策略之Capacity Scheduler
什么是capacity schedulerCapacity Scheduler调度器以队列为单位划分资源。简单通俗点来说,就是一个个队列有独立的资源,队列的结构和资源是可以进行配置的,如下图:default队列占30%资源,analyst和dev分别占40%和30%资源;类似的,analyst和dev各有两个子队列,子队列在父队列的基础上再分配资源。队列以分层方式组织资源,设计了多层级别的...转载 2020-01-28 13:28:58 · 4352 阅读 · 2 评论 -
Yarn资源调度系统详解
1、Yarn介绍Apache Hadoop YARN 是 apache Software Foundation Hadoop的子项目,为分离Hadoop2.0资源管理和计算组件而引入。YARN的诞生缘于存储于HDFS的数据需要更多的交互模式,不单单是MapReduce模式。Hadoop2.0 的YARN 架构提供了更多的处理框架,比如spark框架,不再强迫使用MapReduce框架。从ha...转载 2020-01-27 15:40:27 · 3527 阅读 · 0 评论 -
数据治理之元数据管理实践
引言数字转型对不同的人意味着不同的东西,这取决于你的行业和你的业务性质。然而,所有的解释都有一个共同的主线,数据和数据治理的重要性。近年来,大家都在谈论数据逐步或已经成为企业的核心资产,数据驱动企业业务开展已经在不同的行业和企业中发挥着巨大的作用,那么作为企业的核心资产数据,如何进行管理是不同企业在进行全面数字化转型需要考虑的一个重要事情。关于元数据概念的文章网上有不少,本文主要探讨一般的企业...转载 2019-03-02 16:04:44 · 24919 阅读 · 1 评论 -
数据质量监控工具-Apache Griffin
一、概述随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。目前遇到的表大部分在几亿到几十亿的数据量之间,并且报表数量在...转载 2019-02-02 07:45:13 · 8574 阅读 · 0 评论 -
PyCharm 配置 Apache HUE 开发环境
Apache HUE 是一个操作hadoop生态各组件及组件管理的数据的集大成工具,其底层的 web 框架是python Django。现分享下如何基于 Pycharm 来搭建 Apache HUE 的开发环境。需要注意的是,目前HUE只支持Linux环境安装编译,需要在Windows调试只能采用远程调试,或者在Linux的桌面环境下调试。首先,去github把hue源码拉下来,通过 mak...原创 2018-12-24 21:56:17 · 1994 阅读 · 0 评论 -
HUE4.3安装配置
HUE简介Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,用Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语...原创 2018-12-23 00:08:33 · 5797 阅读 · 3 评论 -
Thrift方式连接hiveServer2+Kerberos
最近在做一个大数据查询平台,后端引擎有部分用了hive,通过thrift的方式连接hiveServer2,由于集群加了kerberos,所以实现thrift连接hiveServer2的时候需要加上kerberos认证。网上查了很多文章,写的thrift连接hive都没有kerberos,分享一下,以供需要通过thrift连接hiveService2并需要开启Kerberos认证的同学一个参考,以便...原创 2018-12-09 15:40:26 · 4453 阅读 · 1 评论 -
Hadoop集群安装
背景介绍最近研究大数据,hadoop属于大数据中很基础的组件,如果需要深入了解,还是得先知道怎么安装部署,方便后续查阅。本操作步骤详细记录hadoop分布式集群环境的搭建过程。实验环境实验环境:Win7下vmware虚拟机操作系统:CentOS 6.5 x64JDK:jdk-8u161-linux-x64Hadoop:hadoop-2.7.5系统规划准备3个节...原创 2018-03-05 22:04:13 · 583 阅读 · 0 评论 -
Zookeeper安装配置
背景介绍最近研究大数据,大数据很多组件都需要zookeeper进行管理,理解zookeeper运行原理,安装配置,参数设置对后续大数据深入打下一个好基础。Zookeeper用java开发,所以安装的时候需要先JDK。实验环境实验环境:Win7下vmware虚拟机操作系统:CentOS 6.5 x64 JDK:jdk-8u161-linux-x64Zookeeper:zook...原创 2018-03-01 21:42:18 · 1434 阅读 · 0 评论 -
Spark集群安装
背景介绍最近调到大数据部门,Spark属于大数据非常重要的基础组件,研究研究也是非常必要的,现实验安装一下,以便对其部署运行机制有个深刻的认识。实验环境实验环境:Win7下vmware虚拟机 操作系统:CentOS 6.5 x64 JDK:jdk-8u161-linux-x64 Scala:scala-2.12.4 Hadoop:hadoop-2.7.5 Spark:spar...原创 2018-03-06 21:52:26 · 1230 阅读 · 0 评论 -
Cloudera&CDH安装配置说明
实验环境实验环境:Win7下vmware虚拟机 操作系统:CentOS 6.5 x64 Clouder Manager:5.14.0 CDH:5.14.0安装说明官方共给出了3中安装方式:第一种方法必须要求所有机器都能连网,由于最近各种国外的网站被墙的厉害,我尝试了几次各种超时错误,巨耽误时间不说,一旦失败,重装非常痛苦。第二种方法下载很多包。第三种方法对系统侵入性最小,最...原创 2018-02-12 15:27:08 · 14820 阅读 · 0 评论 -
CentOS6.5安装Kerberos认证KDC服务
一、 背景介绍大数据平台生产环境开启了Kerberos认证,测试环境没有开启Kerberos认证,导致在开发离线变量计算平台的时候没法在测试环境调试Kerberos认证相关的内容,只能在生产环境上去调试,导致离线变量平台1.0.1.1、1.0.2版本上线的时候由于调试Kerberos的原因上线搞了很久。在生产环境上调试代码是非常不合理的,所以决定把测试环境Kerberos认证搭建起来,...原创 2018-02-09 23:27:27 · 4856 阅读 · 0 评论