2019年05月_往事随风ing

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 [Spark SQL基础]-- 基本语法之 select [hints ...]

背景今天偶然有机会看见了以前一位同学在 join 中使用了 mapjoin 小表广播的优化，由此激起了我对 select 语法中的 hints 部分的深入挖掘，并分享出来，供小伙伴们参考，不足之处，还望赐教！目录select 基本语法 hints 来源 hints 的语法和选项 hints 使用的组合内容1 select 基本语法结构SELECT [hin...

2019-05-23 23:32:17 2885 3

原创 [Maven 基础]-- Dependency Scope

前言常常，我们在使用 Maven 构建、编译和打包项目后，都会部署到对应的服务环境上，然而有时会遇到以下3个问题：jar 包冲突 jar 包太大缺少jar 依赖在解决上面3个问题之前，一起来看看 Maven dependency scope 的 6个可用范围compile 默认scope。将会把这个依赖的相关包都引入。 provided 编译时，不会将这个依赖相关...

2019-05-20 14:11:42 882

原创 [Flink基础]---- Flink学习规划（进阶）

当学习了之前的课程后，我们便有了Flink 的基础，接下来将进行实战，举例各个部分的实现代码。1 Flink 基础 API 概念1.1 Scala API 扩展 1.2 Java Lambda表达式2 Streaming (DataStream API)2.1 Event Time 2.2 State & Fault Tolerance 2.3 Operator...

2019-05-17 18:46:24 795

原创 [Flink课程]---- 9.1 使用Ambari 搭建Flink 集群

1 前言1.1 概览 Stateful Computations over Data Streams(数据流的状态计算) Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。Flink设计为在所有常见的集群环境中运行，以内存速度和任何规模执行计算。在这里，我们解释了Flink架构的重要方面。处理无界和有界数据任何类型的数据都是作...

2019-05-16 21:38:38 9473 17

原创 [Spark 基础]-- 保持Spark sql join 的字段类型一致

问题某天，在处理数据时，发现Spark sql （版本：Spark-1.6.3 ）在进行 join 时，出现了自动截取字符和精度丢失的情况。已经有人在 Jira 上提出需要WARN或者 Exception ，点击举例A 表中的 BigInt 类型和 B表中的 String 类型关联，关联出来的结果重复了，不是我们想要的结果。表一：t_test_bigintcreat...

2019-05-08 09:23:33 2120