余额不足

技术框架&工作小结

[Hive进阶]-- Hive 优化

由于Hive的执行依赖于底层的MapReduce作业,因此对Hadoop作业的优化或者对MapReduce作业的调整是提高Hive性能的基础。所以我们可以通过一系列的调优方法,来提高大幅度地Hive查询的性能。 1、启用压缩 压缩可以使磁盘上存储的数据量变小,通过降低I/O来提高查询速度。 ...

2019-01-18 22:22:39

阅读数 88

评论数 1

[Yarn基础]-- Yarn资源分配

背景 在 2018年 11月的某一天,我发现 spark-submit 设置的资源参数未生效( –executor-cores 10),仔细排查后定位是Yarn 的分配策略使用有误,由于我们集群是使用 Ambari 安装的,未修改Yarn默认的分配策略(org.apache.hadoop.yar...

2019-01-13 18:48:51

阅读数 74

评论数 2

[Yarn基础]-- Apache Yarn 、 Apache Twill 和 Apache Slider 的对比

一、Apache Yarn 、Twill和 Slider 的介绍 1、Apache Yarn YARN的基本思想是将资源管理和作业调度/监视的功能分解为单独的守护进程。我们的想法是拥有一个全局ResourceManager(RM)和每个应用程序ApplicationMaster(AM)。应用程序可...

2019-01-12 20:54:29

阅读数 64

评论数 0

[Kafka基础]-- 在 mac os 10.14.2上安装 kafka-1.0.x

1、 前言 目前Kafka 的稳定大版本是 1.0.x,加上主流的CDH (CDH 5.13.0以上)和 HDP(hdp-3.x.x) 厂商的稳定版本也是使用 Kafka 1.0.x版本,所以,个人选择使用 Kafka-1.0.x 版本做安装测试。 2、环境准备 版本号 稳定性 发行日期...

2019-01-06 18:00:59

阅读数 65

评论数 0

[Alluxio基础]-- 初识 Alluxio(原名 Tachyon )

1、前言 我们有了解分布式文件系统(HDFS)、分布式计算(如Spark),但是肯定有许多小伙伴未曾了解过 Alluxio,当然我也未曾深入了解,那么,今天,我们就一起初步了解下 Alluxio。 它是什么?它能用在哪里?它的特性是什么?以及它是怎样工作的? 2、Alluxio是什么?  ...

2018-12-31 13:09:44

阅读数 69

评论数 0

[Hive进阶]- Hive with as 语法

前言            公用表表达式(CTE)是从WITH子句中指定的简单查询派生的临时结果集(会把查询的表数据放到内存中,供其他查询随时使用),该子句紧跟在SELECT或INSERT关键字之前。CTE仅在单个语句的执行范围内定义。可以在Hive SELECT,INSERT,  CREATE...

2018-12-29 11:16:31

阅读数 69

评论数 0

[从0到1学习Flink]---- 2.2 DataSet API & DataStream API & Table & SQL API 的对比

说明       本文基于 Flink -1.6.0 版本进行整理和分析,如有不妥之处,敬请指正。 内容 一、Flink 的技术栈 图片来源:https://ci.apache.org/projects/flink/flink-docs-release-1.6/internals/comp...

2018-12-22 11:47:46

阅读数 162

评论数 3

[从0到1学习Flink]---- 2.3 部署方式

一、支持的部署方式 Local Standalone Yarn Mesos Docker Kubernetes AWS ……   二、几个角色 ResourceManager NodeManager AppMaster Container YarnSession 注:选择On Ya...

2018-12-17 21:11:29

阅读数 120

评论数 0

[Flink基础]-- 一致性的3个级别

Flink 是流处理器,那么同样会涉及到一致性的3个级别,他们分别如下 1、at-most-once 这其实是没有正确性保障的委婉说法,故障发生后,计数可能丢失。 2、at-least-once 这表示计数结果可能大于正确值,但是绝不会小于正确值,即计数程序发生故障后可能多算,但是绝不会少...

2018-12-13 11:26:32

阅读数 89

评论数 0

[Scala 基础]-- 词汇语法

英文原文:https://www.scala-lang.org/files/archive/spec/2.11/01-lexical-syntax.html#integer-literals 词法语法 Scala程序使用Unicode Basic Multilingual Plane(BMP)...

2018-12-11 12:32:54

阅读数 92

评论数 0

[Flink基础]-- 与其他实时计算框架对比

对比其他计算框架 Spark Storm Flink Streaming Model Micro-batch Native Native Fault Tolerance RDD based checkpointing Record ACKs checkpoint Late...

2018-12-07 23:30:09

阅读数 982

评论数 0

[Phoenix基础]-- 二级索引应该使用local Index还是global Index?

版本:phoenix 4.12.0 说明: 1、一个global index表对应着一个hbase 表,local index是在主表上新增一列存储索引数据。 2、适用场景 global index :适用于多读的场景,但是存在同步索引时带来网络开销较大的问题。 local index ...

2018-11-29 22:49:06

阅读数 84

评论数 0

[Spark进阶]-- 内存管理

前言 Spark 的内存管理是内存分布式引擎中的一个重要角色,了解内存管理机制和原理,才能更好地做优化。 内容 1、静态内存管理(Spark 1.6.x版本前的策略) 静态内存管理图示——堆内 Unroll 的源码参考:https://github.com/apache/spark/blob...

2018-11-27 23:15:53

阅读数 767

评论数 4

[Spark 进阶]-- 优化Spark作业以获得最佳性能

感谢原文作者:https://michalsenkyr.github.io/2018/01/spark-performance Spark作业的开发在表面上看起来很容易,而且大部分都是如此。提供的 API设计精良且功能丰富,如果您熟悉Scala集合或Java流,您将立即完成实施。实际上,当在集群...

2018-11-21 19:37:05

阅读数 92

评论数 0

[Git]-- 团队合作中常见的缩写

今天在查问题的时候,意外地在 github 上发现了一些迷之简写的回复,于是乎,整理了下下,希望对大家有帮助。 1、先看看我发现的简写 2、再看看神秘的简写 PR: Pull Request(拉取请求,给其他项目提交代码) LGTM: Looks Good To Me(我知道了,代码已...

2018-11-21 10:58:55

阅读数 102

评论数 0

[Java基础]--获取星期/月/年或周数

感谢原文作者:https://www.oreilly.com/library/view/java-cookbook/0596001703/ch06s11.html 1、问题 现有一个日期,需要查找该日期的星期几,月份或年份。 2、解决方法 使用Calendar类的get()方法,该方法具有用于...

2018-11-20 09:45:11

阅读数 57

评论数 0

[从0到1学习Flink]---- 1.2 Flink 和 Spark 的对比

感谢原文作者:http://blog.madhukaraphatak.com/introduction-to-flink-for-spark-developers-flink-vs-spark/ 面向Spark开发人员的Apache Flink简介:Flink vs Spark 世界还需要另一...

2018-11-13 22:43:32

阅读数 113

评论数 2

[HBase基础]--LSM树由来、设计思想以及应用到HBase的索引

感谢原文作者: E-mail: huahuiyang@gmail.com https://www.linkedin.com/in/huahuiyang/ http://www.cnblogs.com/yanghuahui/p/3483754.html   讲LSM树之前,需要提下三种基本的...

2018-11-09 16:50:48

阅读数 63

评论数 0

[Spark进阶]--Spark RDMA技术

Apache Spark RDMA插件 Apache Spark™是一种用于大规模数据处理的开源,快速和通用引擎。Spark提供了一个接口,用于使用隐式数据并行和容错来编程整个集群。 概览 Apache Spark™为程序员提供了一个以数据结构为中心的API,称为弹性分布式数据集(RDD),...

2018-11-09 12:57:50

阅读数 178

评论数 0

[Spark进阶]--再识spark高阶架构

Spark EcoSystem几乎都是以 Spark Core为核心而构建起来的,那么,先看看 Spark Core的高阶架构: 分别介绍下几个概念 1、Driver Programs         A driver program is an application that uses...

2018-11-09 12:50:32

阅读数 115

评论数 0

提示
确定要删除当前文章?
取消 删除