自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 【Linux 进阶】-- 定时任务工具(crontab & gocron & tmux)

一、简单介绍 crontab:linux 自带、无监控、单节点、无告警 gocron:go 语言开发、有可视化监控界面、多节点、可邮件告警 tmux:yum 安装、无监控、单节点、无告警 二、安装 本文推荐使用 gocron,故以安装 gocron 为例。 2.1 环境 centos ...

2020-05-31 10:34:05 53 0

原创 【Python 基础】-- 使用注释

1、注释分类 单行注释:以 # 开头,间隔一个空格后开始写说明 示例 # 这是一个 python 打印字符串的示例 print("hello world") 多行注释:python 2.7 以前使用 3 个英文单引号,python 2.7 以后建议使用 3 个英文双引...

2020-05-26 13:52:12 31 0

原创 【Spark SQL】-- 集成 ElasticSearch 的相关配置

1.版本 Spark: 2.4.0 ES:5.6.12 2.配置说明 https://www.elastic.co/guide/en/elasticsearch/hadoop/5.6/configuration.html https://www.elastic.co/guide/en/el...

2020-05-10 17:57:46 46 0

原创 【Structured Streaming】-- 输出模式

环境 spark 2.4.0 scala 2.11.8 jdk 1.8 http://spark.apache.org/docs/2.4.0/structured-streaming-programming-guide.html#output-modes

2020-04-24 19:17:32 41 0

原创 【Flink基础】-- 写入 Kafka 的两种方式

方式一:用 Robin 的方式写入 Kafka 1、实现 exactly-once 语义的 kafka sink,用 Robin 的方式写入 Kafka 2、randomRobin: 创建 FlinkKafkaProducer 时,指定空的 customPartitioner,flink 会把...

2020-04-20 21:58:24 112 0

原创 [Hive 基础]-- 使用 Map 和 Array 数据结构

Hive 处理复杂数据时,可以使用支持的复杂数据结构 1、map 1.1 可以存储如下数据 "geo": { "country": "中国", "subdivision": "安徽", &q...

2020-03-26 17:46:29 71 0

原创 [MongoDB基础]-- Spark 写 Dataframe 数据到 Mongo

如何将 Dataframe 数据写入 Mongo1、准备2、输入数据3、代码4、查询5、参考文档 1、准备 环境:Spark 2.3.1 + Mongo 4.2.3 +scala -2.11.8+ jdk 1.8.0 + Hadoop-2.7.3 业务:将 json 数据 使用 spark 读出来...

2020-03-22 16:54:29 97 0

原创 【Flink 基础】-- TaskManager、Solt和 Parallelism 说明及设置

一、概念理解 solt:把 slot 看做 cpu 的核一个slot一可以并行跑很多作业 并发度:一个算子有多少个运行实例 关系: slot数 = 最大并发度、一个slot一可以同时运行不同算子的一个实例 二、参数设置说明  计算 TaskManager 数量: 50/4 = 13 ,...

2020-02-19 10:29:26 313 0

原创 【Java基础】-- System.exit(-1)、System.exit(0)和System.exit(1)区别

System.exit(-1)、System.exit(0)、System.exit(1)区别 1、源码链接 https://docs.oracle.com/javase/8/docs/api/java/lang/System.html#exit(int) 2、说明 所在包:package ja...

2020-01-21 11:10:05 596 0

原创 【大数据面试】--2019年面试和笔试题目汇总

一、前言 经过一段时间的面试和笔试,已经彻底快让鄙人失去了信心!年底了,找工作真难!但是这也对个人将来的规划和学习工作有了一定的提示。下面将把个人算是面经吧,分享出来,希望对各位有帮助。 二、思考 每次进入一家公司,即要做好离开的准备! -- 因为公司不是你的家 一定要建...

2020-01-12 18:58:23 5230 2

原创 [Spark 学习]-- 1.4 Spark cluster manager

2019-12-04 10:53:45 171 0

原创 [Kafka 基础]-- 安装 kafka-manager 监控

一、Kafka 监控工具介绍 目前还没有一款公认比较优秀的 Kafka 监控工具,各有各的好,我们可以针对自己需要去选择,但是如果你是 Kafka 集群运维操作人员,还是推荐先用 Kafka Manager 来做监控。 1.Kafka Manager 雅虎公司开源的免费监控框架 Sc...

2019-11-12 17:33:29 91 0

转载 [CDH 基础]-- Cloudera Manager Metrics(CDH-6.3.0)

Cloudera Manager Metrics This section provides information on metrics supported by Cloudera Manager. Ametricis a property that can be measured to q...

2019-11-07 09:57:20 213 0

转载 [CDH 基础]-- tsquery 语言指南(CDH 6.3.0)

tsquery Language The tsquery language is used to specify statements for retrieving time-series data from the Cloudera Manager time-series datastore....

2019-11-07 09:54:55 297 0

原创 [Spark 学习]--1.3 Spark practice

下载链接:https://pan.baidu.com/s/1MOrXupl__rFe_uj6pT-82Q 密码:f1po 参考:https://blog.csdn.net/high2011/article/details/76651290 项目地...

2019-10-21 09:04:31 107 0

原创 [Flink 学习] -- 编译 CDH-6.3.0 版本的 Flink 1.9.0

前言 由于 Apache Flink 的开源二进制包未提供 HDP、MapR和 CDH 的下载,所以,如果要兼容基于这些厂商的库编译 Apache Flink。本文主要介绍使用 CDH 的库进行编译 Apache Flink 1.9.0,希望对读者有所帮助。 内容 1、环境 ...

2019-10-17 18:16:37 2713 9

原创 [Spark 学习]--1.2 Spark core

参考链接:https://github.com/yangjf2019/learning-spark-group/blob/master/src/main/scala/com/yjf/learning/spark/core/SpecialOutPutWordApp.scala

2019-09-29 08:57:01 88 0

原创 [Spark 学习]-- 1.1 Spark 框架介绍

2019-09-29 08:47:45 117 0

原创 [Java 进阶]-- import 和 import static 区别

1、Oracle 官方说明 https://docs.oracle.com/javase/8/docs/technotes/guides/language/static-import.html 2、Stackoverflow 讨论 https://stackoverflow.com/qu...

2019-09-15 11:29:02 68 0

原创 [Spark 学习]-- 初级规划

1 Spark 框架介绍1.1 Spark 介绍【点击链接】 1.1.1 Spark 是什么? 1.1.2 为什么使用 Spark? 1.1.3 应用场景有哪些? 1.1.4 参考 1.1.5 小结 1.2 Spark core【点击链接】 1.2.1 spark 技术栈 1.2.2 spark...

2019-09-12 17:22:07 85 1

原创 [大数据面试]-- 6.Hadoop 题目

============================================================================================ 1、集群规模、配置怎样? 2、namenode端口 3、Hadoop的集群管理模式 4、如何更改输出文件...

2019-08-05 21:36:20 127 0

原创 [大数据面试]-- 5.Flink 题目

========= 基础 ========= 1、Flink 的 抽象层次有几种 Stateful stream processing Core API Table SQL 2、Window 类型 (1)TimeWindow Tumbling Window(滚动窗口) Sli...

2019-08-05 21:34:52 2009 0

原创 [大数据面试]-- 4.Hive 题目

========= 基础 ========= 1、Hive sql to MR https://cwiki.apache.org/confluence/display/Hive/Design 2、外部表和内部表 3、Hive shuffle 算子 4、Hive 存储和压缩格式 5、...

2019-08-05 21:33:10 223 0

原创 [大数据面试]-- 3.Spark 题目

========= 基础 ========= 1、RDD 的基础 https://www.jianshu.com/p/fca10efd2315 https://www.jianshu.com/p/6319d6239f03 https://www.jianshu.com/p/64ade88f...

2019-08-05 21:31:28 252 0

原创 [大数据面试]-- 2.Scala 题目

========= 基础 ========= 1 var, val和def三个关键字之间的区别? valimmutable variable varmutable variable def function defined keyword 2.object 和 class 的区别? ...

2019-08-05 21:29:44 299 1

原创 [大数据面试]-- 1.Java 题目

========= 基础 ========= 1、封装、多态和继承 https://blog.csdn.net/qq_22118507/article/details/51422591 封装:为了安全、私有化属性、提供 get/set方法对外访问 继承:复用代码,继承父类的方法和属性,也可...

2019-08-05 21:27:55 187 0

原创 [Spark 进阶] -- Spark 如何在运行时读取 --files 添加的 README.md 文件?

Spark 如何在运行时读取 --files 添加的 README.md 文件? 方法 1 本方法适用于 spark local 和 spark on yarn-client 。 --files 会把文件上传到 hdfs 的 .sparkStagin/applicationId 目录下,使用...

2019-07-27 13:22:51 2333 1

原创 [生活杂感]-- 问问题的艺术

供参考,希望对各位有帮助! 源文件访问 https://www.processon.com/view/link/5d3a6d94e4b065dc42b2fd72 密码:kAt4

2019-07-26 11:08:23 90 0

原创 [Hive 进阶]-- 7种可以提高 Hive 查询速度的方法

如何提高Hive 的查询性能? Apache Hive是一种强大的数据分析工具。在处理数PB的数据时,了解如何提高查询性能非常重要。以下内容是基于 HDP-2.6.4 版本汇总的,如有不足之处,望指出。 1、使用Tez引擎 Apache Tez Engine是一个可扩展的框架,用于构建高性能...

2019-07-17 11:26:36 3890 0

原创 [数据库基础]-- CBO and RBO optimizers

1、前言 CBO是 Cost-based optimizer ,RBO是 Rule-based optimizer 。 2、对比 CBO RBO 定义 基于成本的优化 基于规则的优化 目的 为每个SQL语句提供最便宜的执行计划 RBO使用一...

2019-07-13 11:40:45 206 0

翻译 [Flink 基础]-- 端到端的精准一次语义实现

感谢英文原文:https://flink.apache.org/features/2018/03/01/end-to-end-exactly-once-apache-flink.html Apache Flink中的端到端精确一次处理概述(和Apache Kafka一样) 2018年3月1日P...

2019-07-13 11:11:21 844 0

原创 [Flink基础]-- Flink DataSource 有哪些?

前言 不同 Flink 的 API 拥有不同或者相同的 Data source,那么在此针对于 Flink -1.8.0 版本,总结下 它的 DataSource ,希望能对小伙伴们有帮助。 内容 DataStream API 内置source 基于 Socket socketTex...

2019-06-29 13:06:29 541 0

转载 [架构-基础]--CAP 定理的含义

感谢原文作者:http://www.ruanyifeng.com/blog/2018/07/cap.html CAP 定理的含义 分布式系统(distributed system)正变得越来越重要,大型网站几乎都是分布式的。 分布式系统的最大难点,就是各个节点的状态如何同步。CAP 定理是这...

2019-06-20 22:05:45 84 0

原创 [Linux基础]-- shell 遍历数组的几种方法

背景 某天遇到一个问题,现象如下:第一种遍历正常打印元素,然而第二种遍历只会打印一个元素! #!/bin/bash # $1 代表文件目录 # 执行 eg: # sh your_shell.sh /user/lib/ echo "开始时间:`date '+...

2019-06-11 17:04:10 207 0

原创 [Spark SQL基础]-- 基本语法之 select [hints ...]

背景 今天偶然有机会看见了以前一位同学在 join 中使用了 mapjoin 小表广播的优化,由此激起了我对 select 语法中的 hints 部分的深入挖掘,并分享出来,供小伙伴们参考,不足之处,还望赐教! 目录 select 基本语法 hints 来源 hints 的语法和选...

2019-05-23 23:32:17 590 3

原创 [Maven 基础]-- Dependency Scope

前言 常常,我们在使用 Maven 构建、编译和打包项目后,都会部署到对应的 服务环境上,然而有时会遇到以下3个问题: jar 包冲突 jar 包太大 缺少jar 依赖 在解决上面3个问题之前,一起来看看 Maven dependency scope 的 6个 可用范围 compile ...

2019-05-20 14:11:42 377 0

原创 [Flink基础]---- Flink学习规划(进阶)

当学习了之前的课程后,我们便有了Flink 的基础,接下来将进行实战,举例各个部分的实现代码。 1 Flink 基础 API 概念 1.1 Scala API 扩展 1.2 Java Lambda表达式 2 Streaming (DataStream API) 2.1 Event Ti...

2019-05-17 18:46:24 336 0

原创 [Flink课程]---- 9.1 使用Ambari 搭建Flink 集群

1 前言 1.1 概览 Stateful Computations over Data Streams(数据流的状态计算) Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行,以内存速度和任何规模执行计算。...

2019-05-16 21:38:38 3697 14

原创 [Spark 基础]-- 保持Spark sql join 的字段类型一致

问题 某天,在处理数据时,发现Spark sql (版本:Spark-1.6.3 )在进行 join 时,出现了自动截取字符和精度丢失的情况。 已经有人在 Jira 上提出需要WARN或者 Exception ,点击 举例 A 表中的 BigInt 类型和 B表中的 String 类型...

2019-05-08 09:23:33 535 0

原创 [Kafka 基础]-- Producer 参数(Kafka -0.10.2.1)

参数如下: acks = all batch.size = 16384 block.on.buffer.full = false bootstrap.servers = [localhost:9092] buffer.memory = 33554432 client.id =...

2019-04-19 14:55:32 323 0

提示
确定要删除当前文章?
取消 删除