![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
-- 数据专题-数据工具
数据专题
谦蓦
生命是选择的总和。
展开
-
Airflow[v1.10]任务调度平台的安装教程
0.背景真的是想不通,Airflow不论社区活跃度还是Github的star数都是远胜于Azkaban还有EasyScheduler的,但是为何却连一个完备的安装教程都没有呢?是我的需求太高?真的是心累不已,整整把搜索引擎还有youtube翻来覆去也没让我感到满足……不过好在,一步一坑一脚印的最终搭建连通好了环境以及Operator。好了,废话不多说,开始Airflow今日份安装教程。1.安...原创 2019-06-14 03:42:00 · 1318 阅读 · 2 评论 -
Spark Shuffle解密
Spark Shuffle解密继Shuffle解密(MapReduce Shuffle过程)博文后的又一解密性博文。(to be done)原创 2017-11-23 23:08:29 · 320 阅读 · 0 评论 -
Shuffle解密
Shuffle解密0. 准备阶段Map的输出会经过一个名为shuffle的过程,交给Reduce处理。在MapReduce流程中,为了让Reduce可以并行处理Map结果,必须对Map的输出进行一定的排序和分割,然后再交给对应的Reduce,而这个将Map输出进行进一步整理并交给Reduce的过程就是shuffle。shuffle是MapReduce的核心所在,shuffl原创 2017-11-08 07:56:15 · 558 阅读 · 0 评论 -
Hive数据去重、多变一与一变多等实现
Hive数据去重、多变一与一变多等实现0. 数据准备0.1 数据文件本机的/usr/local/share/applications/hive/data/目录下创建 employees.txt 数据文件:John Doe^A100000.0^AMary Smith^BTodd Jones^AFederal Taxes^C.2^BState Taxes^C.05^BInsur原创 2017-09-29 23:49:54 · 3178 阅读 · 0 评论 -
Hive集群合并之应用端的负载均衡算法
0.背景有这么一个场景,我们有两个Hive集群,Hive集群1(后面成为1号集群)是一直专享于数据计算平台的,而Hive集群2(后面成为2号集群)是用于其他团队使用的,比如特征,广告等。而由此存在两个主要问题:a) 两个Hive集群共享了同一份MetaData,导致经常会出现在HUE(建立与2号集群上)上建表成功后,但是在计算平台上却无法查询到新建表信息;b) 让运维同学们同时维护两套集群,管...原创 2019-05-12 22:55:51 · 1092 阅读 · 0 评论 -
为何EasyScheduler升级v1.1.0后定时任务不调度执行?
一、背景EasyScheduler升级v1.1.0后,进行任务测试,发现只能调度执行新的定时任务,而不能调度旧的定时任务。二、那么问题来了究竟是哪里出问题了?1.我的操作步骤出现了bug?2.EasyScheduler官方的升级脚本有问题?然而,从v1.0.3升级到v1.1.0完全是按照https://dolphinscheduler.apache.org/en-us/docs...原创 2019-10-22 22:54:28 · 608 阅读 · 0 评论 -
Hadoop远程调试
Hadoop远程调试Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构,使您能够在各种环境中轻松调试 Java 应用程序。JPDA 由两个接口(分别是 JVM Tool Interface 和 JDI)、一个协议(Java Debug Wire Protocol)和两个用于合并它们的软件组件(后端原创 2017-09-25 18:51:25 · 489 阅读 · 0 评论 -
hadoop执行mapreduce过程reduce不执行原因
hadoop执行mapreduce过程reduce不执行原因1.如果你的map过程中没有context.write()是不执行reduce过程的;2.如果你的map过程中context.write()的map后的的部分数据出现问题,不符合reduce接受的数据也会不执行reduce比如说你的日志文件中有一个空行是不符合reduce的接受数据reduce不执行;转载 2017-09-30 19:30:32 · 3520 阅读 · 0 评论 -
Spark Streaming中,增大任务并发度的方法有哪些?
Spark Streaming中,增大任务并发度的方法有哪些?0 准备阶段Q: 在Spark集群中,集群的节点个数、RDD分区个数、CPU内核个数三者与并行度的关系是什么?我们先梳理一下Spark中关于并发度涉及的几个概念: File, Block, Split, Task, Partition, RDD以及节点数、Executor数、core数目的关系。原创 2017-11-09 09:44:17 · 6927 阅读 · 0 评论 -
Zookeeper问题汇总
Zookeeper问题汇总1 Zookeeper集群启动报错启动客户端一直报错:2016-05-06 01:58:23,980 [myid:] - INFO [main-SendThread(localhost:2181):ClientCnxn$SendThread@975] - Opening socket connection to server localhost/0:原创 2017-11-09 13:55:33 · 1300 阅读 · 0 评论 -
MapJoin和ReduceJoin区别及优化
MapJoin和ReduceJoin区别Map-side Join(Broadcast join)思想: 小表复制到各个节点上,并加载到内存中;大表分片,与小表完成连接操作。两份数据中,如果有一份数据比较小,小数据全部加载到内存,按关键字建立索引。大数据文件作为map的输入,对map()函数每一对输入,都能够方便的和已加载到内存的小数据进行连接。把连接结果按key输出,经过shuffle阶段,原创 2017-11-18 11:17:10 · 11548 阅读 · 0 评论 -
从Spark组件来剖析Spark的执行流程
从Spark组件来剖析Spark的执行流程0 从对比的视角来看Spark0.1 Hadoop VS Spark0.2 Spark VS FlinkFlink 作为后起之秀,发展迅猛,有Ali 的 Blink 在支撑,流行起来是早晚的事流计算:Flink要强一些,真正的流计算。不过,Spark Summit 2017 大会也有说到 Spark 2.2原创 2017-11-03 23:09:28 · 1783 阅读 · 0 评论 -
Hive SQL查询效率提升之Analyze方案的实施
0.简介Analyze,分析表(也称为计算统计信息)是一种内置的Hive操作,可以执行该操作来收集表上的元数据信息。这可以极大的改善表上的查询时间,因为它收集构成表中数据的行计数,文件计数和文件大小(字节),并在执行之前将其提供给查询计划程序。1.如何分析表?基础分析语句ANALYZE TABLE my_database_name.my_table_name COMPUTE STAT...原创 2019-06-07 15:44:46 · 2559 阅读 · 0 评论 -
MapReduce作业执行流程
MapReduce作业执行流程0 准备阶段0.1 回顾hadoop配置文件mapred-site.xml mapreduce.framework.name yarn Hadoop 2.x引入了一种新的执行机制。这种新机制(MR 2)建立在一个名为YARN的系统上。而用于执行的框架通过 “mapreduce.framework.name” 属性原创 2017-11-10 16:50:56 · 5363 阅读 · 2 评论 -
MapReduce实现分组排序
MapReduce实现分组排序以某次竞赛为例,分别进行如果实现:取每组中男生前三名成绩和女生前三名成绩按照年龄分组降序输出所有人的成绩等价的SQL0. 预备知识0.1 基于MapReduce实现分组、排序:分组:相当于group by。MapReduce的实现:相当于分区,以求处理手机上网日志为例,把手机号和非手机号分为两组。原创 2017-09-22 23:03:48 · 4204 阅读 · 2 评论 -
Spark错误汇总
Spark错误汇总积累1、spark带的scala库比较旧(2.11.8), 系统安装的安装scala比较新(2.12.2)引起的问题.zhouhh@/Users/zhouhh/test/spark/wordcount $ spark-submit --class WordCount --master local target/scala-2.12/wordcount-spark_2.12原创 2017-10-15 21:39:00 · 805 阅读 · 0 评论 -
针对ssh免密码登录出现Agent admitted failure to sign using the key
通过ssh配置免密码登录服务器时,出现了'Agent admitted failure to sign using the key.'提示。遇见此问题,只需要在当前用户下执行 ssh-add 命令即可将私钥添加进来,就可以直接通过类似 ssh master命令登录访问服务器。原创 2017-09-03 15:25:44 · 952 阅读 · 0 评论 -
Flume读取日志数据并写入到Kafka,ConsoleConsumer进行实时消费
最近大数据学习使用了Flume、Kafka等,今天就实现一下Flume实时读取日志数据并写入到Kafka中,同时,让Kafka的ConsoleConsumer对日志数据进行消费。1、FlumeFlume是一个完善、强大的日志采集工具,关于它的配置,在网上有很多现成的例子和资料,这里仅做简单说明不再详细赘述。Flume包含Source、Channel、Sink三个最基本的概念原创 2017-09-14 00:03:45 · 20631 阅读 · 4 评论 -
从RDD角度来剖析Spark内部原理
从RDD角度来剖析Spark内部原理1 Spark的核心 — RDD?1.1 RDD的5个属性1.2 RDD的特性1.3 What's RDD?在物理上,RDD对象实质上是一个 元数据结构,存储着 Block、Node等的映射关系,以及其他的元数据信息。一个RDD就是一组分区,在物理存储上,RDD的每个分区对应的就是一个Block,Block可以存储在内存中原创 2017-11-11 09:52:53 · 558 阅读 · 0 评论 -
EasyScheduler线上任务调度延迟1小时问题排查
一、背景早上,暴躁君W来了条信息:“小时计算任务延迟一小时执行,导致应该6点启动的计算3点数据的任务到7点才被提交执行,而计算4点数据的任务跑了两次,帮忙排查下这个问题。”二、那么问题来了[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I5mK0LJw-1571756088100)(https://github.com/buildupchao/ImgStor...原创 2019-10-22 22:55:18 · 810 阅读 · 0 评论