2020年05月_高达一号

原创 Spark_SparkSQL 中定义 UDTF

我们看下如何在 SparkSQL 中定义并使用 UDTF。

2020-05-31 16:50:52 1824

原创 Spark_SparkSQL 中定义 UDAF

在SparkSQL中，我们常常使用系统定义的聚合函数，如Max，Min 等。我们看下如何在 SparkSQL 中定义并使用 UDAF。

2020-05-31 16:49:39 302

原创 Spark_SparkSQL 中定义 UDF

在Spark SQL 中我们使用 UDF 的情况十分常见。下面，我们讲解下如何在Spark 中定义并使用 UDF。

2020-05-31 16:45:51 849

参考文章：1.Spark 配置Kryo序列化机制https://www.jianshu.com/p/68970d1674fa2.Spark kyro Serializationhttps://www.jianshu.com/p/141bb0244f643.Spark中使用kyro序列化https://blog.csdn.net/wangweislk/article/details/789998144.【Spark七十八】Spark Kyro序列化https://www.ite

2020-05-31 15:14:45 3151

原创 Spark_DataFrame 去除 null, NaN 和空字符串

去除null、NaN去除 dataframe 中的 null 、 NaN 有方法 drop ，用 dataframe.na 找出带有 null、 NaN 的行，用 drop 删除行：df.na.drop()去除空字符串去除空字符串用 dataframe.where ：df.where("colname <> '' ")示例代码package com.spark.test.offline.filterimport org.apache.sp...

2020-05-30 19:38:47 8567

原创 Spark_RDD与DataFrame/DataSet 相互转换

参考文章1.https://blog.csdn.net/lemonzhaotao/article/details/802963142.这是个比较基本的知识，我们这里整理下1）RDD 转化为 DataSet / DataFrame 1.通过反射去转化（有限制） 2.通过定义structType去做转化2) DataFrame / DataSet 转化为 RDDRDD 转化为 DataSet / DataFrame1.通过反射去转化（有限...

2020-05-30 18:22:41 423

转载 Spark_Spark中DataFrame 基本操作函数

DataFrame的基本操作函数Action 操作1、 collect()返回值是一个数组，返回dataframe集合所有的行2、 collectAsList()返回值是一个java类型的数组，返回dataframe集合所有的行3、 count()返回一个number类型的，返回dataframe集合的行数4、 describe(cols: String*)返回一个通过数学计算的类表值(count, mean, stddev, min, an...

2020-05-30 01:48:46 4190

原创 Spark_SparkSQL / DataFrame 中 groupby 数据倾斜处理方法

数据倾斜，是一个有可能遇到的问题，Hive 中 groupby 数据倾斜，已经有参数可以很好的支持了。Hive 参考文章https://blog.csdn.net/u010003835/article/details/105495135下面我们看下 SparkSQL 如何解决这种 GroupBy 类型的数据倾斜思路如下：其实是和 Hive 的调优参数，将作业拆分为2个参数一样的。 set hive.map.aggr=true; set hive.gro...

2020-05-30 01:14:18 1960

转载 Spark_SparkSQL 函数全集_基于 2.3.0

原文https://blog.csdn.net/liam08/article/details/79663018Summaryorg.apache.spark.sql.functions是一个Object，提供了约两百多个函数。大部分函数与Hive的差不多。除UDF函数，均可在spark-sql中直接使用。经过import org.apache.spark.sql.functions._ ，也可以用于Dataframe，Dataset。version2.3.0大部分支持..

2020-05-30 01:00:05 786

原创 Spark_Union 算子与 Shuffle 流程

今天有被问到 UNION 算子会不会产生 Shuffle 。说实话，这个没有研究过，我们写个demo代码：package com.spark.test.offlineimport org.apache.spark.{SparkConf, SparkContext}/** * Created by szh on 2020/5/28. */object TestUnion { def main(args: Array[String]): Unit = { ...

2020-05-29 10:23:02 3129 1

原创数组/链表_两个有序链表的合并

//实现一个函数，输入两个链表（递增），合并为一个链表，依然保持有序。package com.offer.test.listnodecomb;class ListNode { int val; ListNode next = null; ListNode(int val) { this.val = val; }}/** * Created by szh on 2020/5/27. * @author szh */public c.

2020-05-29 00:13:02 458

原创 Spark_Exception in thread main java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

敲黑板，引入的依赖一定要 “compile” 或则 “runtime”，否则spark conf 无法初始化，这辈子也运行不了，千万不要是 “provided". <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <ver...

2020-05-28 11:43:30 3011 1

原创 CDH/YRAN_集群调优

参考文章：1.yarn资源memory与core计算配置https://www.cnblogs.com/xjh713/p/9855238.html2.cdh之调整YARN（调优yarn 生产必做优化项）004https://blog.csdn.net/weixin_33788244/article/details/91669894内存相关参数我们在运行使用CDH平台的时候，需要对YARN 的资源配置进行一定的调整。下面我们看一下相关的参数，主要的涉及到...

2020-05-27 16:54:10 545

原创 CDH_大数据相关组件的日志，存放目录

CDH 中大数据相关组件的日志目录存放在/var/log/${component} 目录下面。[root@cdh-manager log]# pwd/var/log[root@cdh-manager log]# lltotal 8600drwxr-xr-x. 2 root root 204 Dec 4 2018 anacondadrwx------. 2 root root 9...

2020-05-27 00:13:08 2619

原创 Hadoop_YARN 中 resourceManager / nodeManager / container log 存放日志位置

我们在使用 CDH 做集群管理的时候，非常的方便。下面，详细了解下主要几个节点的日志位置。1.ResourceManager log2.NodeManager log3.Container logResourceManager logResourceManager log 位置相关参数是hadoop.log.dir这里是 /var/log/hadoop-yarn进目录看一下[root@cdh-node2 hadoop-yarn]# pwd/var/log/h...

2020-05-26 23:58:48 5522

转载 Flink_探究Flink on YARN模式下TaskManager的内存分配

原文地址：https://www.jianshu.com/p/4e4c188f5d7b一个问题我们使用如下的参数提交了Flink on YARN作业（per-job模式）。/opt/flink-1.9.0/bin/flink run \--detached \--jobmanager yarn-cluster \--yarnname "x.y.z" \--yarnjobManagerMemory 2048 \--yarntaskManagerMemory 4096 \--.

2020-05-26 23:12:46 4215 1

原创 Flink_Flink On Yarn_flink资源slots 与 Yarn中container, 以及 cores 之间的关系

Based on Flink 1.10.1本文主要讲解下 flink 中 flink-conf.yaml 中有关 slots 的配置，与 Yarn 中 container 以及 cores 的相应关系。主要涉及以下两个参数# The number of task slots that each TaskManager offers. Each slot runs one parallel pipeline.taskmanager.numberOfTaskSlots: 2...

2020-05-26 21:24:37 4380 1

原创 Flink_Flink ON YARN containerized.heap-cutoff-min 内存调整

今天，我对 Flink ON YARN 集群的内存进行下调整。我调整了 Container 容器最小的分配内存，导致了一系列的问题，这里记录一下。（1）yarn.nodemanager.resource.memory-mb 表示该节点上YARN可使用的物理内存总量，默认是8192（MB），注意，如果你的节点内存资源不够8GB，则需要调减小这个值，而YARN不会智能的探测节点的物理内存总量。（2）yarn.nodemanager.vmem-pmem-ratio 任务每使用1MB...

2020-05-26 19:58:53 1638

原创 Spark_Spark 中 Stage, Job 划分依据 , Job, Stage, Task 基础知识

最近整理一下，之前没注意到的点。本文整理下 Job 与 Stage 的划分依据。参考文章：1.Spark的Job、Stage、Task是按何种规则产生的https://blog.csdn.net/gaopu12345/article/details/791566752.Spark中job、stage、task的划分+源码执行过程分析https://blog.csdn.net/hjw199089/article/details/77938688Job 划分依据：...

2020-05-26 16:08:23 2701

原创 Spark_Spark 中的 transform 与 action 算子

Base on Spark 2.4.5参考文章：1.官方文档http://spark.apache.org/docs/latest/rdd-programming-guide.html#transformations2.Spark transform 与action算子https://blog.csdn.net/chixushuchu/article/details/863072683.https://blog.csdn.net/qq_15300683/...

2020-05-25 22:32:28 1447

原创 Flink_Flink的第一个程序，Streaming WordCount

最近，我学习了Flink, 写了个FlinkWordCount。依赖这里使用Maven 进行代码管理：父Pom<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocatio.

2020-05-25 20:01:19 1003

原创 Flink_YARN 上资源申请流程

Base on Flink 1.10.1 Flink 托管给Yarn 是一个非常常用的形式，下面我们通过官网给出的流程图，了解下 Flink On Yarn 的任务执行流程。前提：首先，我们如果能让我们的任务在Yarn 上托管执行，我们是需要设置一些环境变量：The YARN client needs to access the Hadoop configuration to connect to the YARN resource manager and HDFS....

2020-05-25 12:20:24 1065

转载 Flink_Flink 1.10 细粒度资源管理解析

原文地址https://blog.csdn.net/weixin_44904816/article/details/106066579 相信不少读者在开发 Flink 应用时或多或少会遇到在内存调优方面的问题，比如在我们生产环境中遇到最多的 TaskManager 在容器化环境下占用超出容器限制的内存而被 YARN/Mesos kill 掉[1]，再比如使用 heap-based StateBackend 情况下 State 过大导致 GC 频繁影响吞吐。这些问题对于不熟悉 Fli...

2020-05-23 02:39:59 972

原创 Flink_Flink TaskManager 内存模型，以及相关内存配置参数

Flink 中 TaskManager 中模型比较复杂，本文讲解下 Flink 中的内存模型以及相关的配置 ( 基于 Flink 1.10 )内存分布简介首先我们看一下 Flink 官网给出的内存示意图：https://ci.apache.org/projects/flink/flink-docs-release-1.10/ops/memory/mem_setup.html#set-up-task-executor-memory一般来说我们只需要选择以下3种方...

2020-05-23 02:03:43 9038

原创 Flink_Flink 集群搭建

本文主要讲解下 flink 如何搭建：单节点集群standalone 集群yarn session 集群最近学习了下 Flink ，看了许多天的书，一上手搭建集群遇到了许多问题。我在这里整理下集群搭建所遇到的问题。单节点集群单节点集群，其实不难。主要我是虚拟机器，内存很小，所以我们要调整 task-manager 的内存参数。task-manager 的内存分配管理与参数配置是一个大问题，我专门写了一篇文章：...

2020-05-22 22:29:42 2462

转载 HBase_HBase 数据读取流程解析

和写流程相比，HBase读数据是一个更加复杂的操作流程，这主要基于两个方面的原因：其一是因为整个HBase存储引擎基于LSM-Like树实现，因此一次范围查询可能会涉及多个分片、多块缓存甚至多个数据存储文件；其二是因为HBase中更新操作以及删除操作实现都很简单，更新操作并没有更新原有数据，而是使用时间戳属性实现了多版本。删除操作也并没有真正删除原有数据，只是插入了一条打...

2020-05-05 16:42:34 801

转载大数据_HBase_LSM-TREE 基本原理以及应用

参考文章：https://www.jianshu.com/p/5c846e205f5fLSM-tree 在 NoSQL 系统里非常常见，基本已经成为必选方案了。今天介绍一下 LSM-tree 的主要思想，再举一个 LevelDB 的例子。目录LSM-tree写入流程：查询流程：LevelDB写入流程：查询流程：LSM-tree读写放大写放大：...

2020-05-05 15:35:21 855

原创大数据_HBase_HBase 中的 bloom-filter

参考文章：1.详解布隆过滤器的原理、使用场景和注意事项https://www.jianshu.com/p/2104d11ee0a22.数学之美：布隆过滤器https://zhuanlan.zhihu.com/p/72378274什么是布隆过滤器本质上布隆过滤器是一种数据结构，比较巧妙的概率型数据结构（probabilistic data structure），特点...

2020-05-05 15:24:42 359

原创 HBase_HBase_原理_Compaction 基于HBase 2.0

本篇文章主要介绍 HBase 中的 LSM -Tree 中的合并，分为以下几个部分目录LSM-Tree Compaction 主要流程Compaction 作用Compaction 分类Minor Compaction :Major Compaction :Compaction 触发条件MemStore Flush：后台线程周期性检查：手动...

2020-05-05 11:39:56 433

转载 HBase_HBase的客户端连接管理

很多人在使用客户端api进行hbase连接的时候，会提出hbase是否有连接池，怎么实现hbase的连接池的问题，更有甚者，许多初学者在开发hbase代码的时候，经常出现hbase连接数的限制等连接问题，归根结底还是对hbase的连接对象Connection不甚了解，下面我们来详细剖析一下hbase的连接对象：

2020-05-03 23:35:07 1130

原创 HBase_HBase_Namespace 相关操作

目录namespace 基本概念namespace 基本操作namespace 相关的创建操作namespace 相关的删除操作namespace相关的查询操作namespace 相关的修改操作namespace 基本概念在HBase中，namespace命名空间指对一组表的逻辑分组，类似RDBMS中的database，方便对表在业务上划分。Apa...

2020-05-03 22:51:40 648

转载 HBase_HBase2.0 vs HBase1.0 特性比较

HBase 升级方案HBase 2.0 新特性1) AssignmentManager V22)In-memory Flush & Compaction3) Offheaping of Read/Write PathHBase 2.0 的 “坑”1) V2.0.3之前的版本不支持HBCK22) 重度依赖 Procedure V2...

2020-05-03 22:07:50 2745

转载 HBase_HBase架构解析_基于Hbase2.0

HBase架构组成HMaster组成HRegionServer节点Zookeeper集群HBase容错机制HBase架构组成HBase 采用 Master / Slave 架构搭建集群，它隶属于 Hadoop 生态系统，由以下几个类型的节点组成HMaster节点、HRegionServer节点、ZooKeeper集群而在底层，它将数据存储于...

2020-05-03 19:02:11 1568

原创 HBase_HBase 2.0 Shell 操作指南

HBase 的Shell 是操作HBase 的重要手段。下面我们讲解下Hbase Shell 都能完成那些功能。目录启动Hbase Shell帮助退出debug 模式输入截至 ...

2020-05-01 23:00:48 1171

迎难而上