自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

迎难而上

热爱技术的IT人

  • 博客(34)
  • 收藏
  • 关注

原创 Spark_SparkSQL 中定义 UDTF

我们看下如何在 SparkSQL 中 定义并使用 UDTF。

2020-05-31 16:50:52 1824

原创 Spark_SparkSQL 中定义 UDAF

在SparkSQL中,我们常常使用系统定义的聚合函数 ,如Max,Min 等。我们看下如何在 SparkSQL 中 定义并使用 UDAF。

2020-05-31 16:49:39 302

原创 Spark_SparkSQL 中定义 UDF

在Spark SQL 中我们使用 UDF 的情况十分常见。下面,我们讲解下如何在Spark 中定义并使用 UDF。

2020-05-31 16:45:51 849

原创 Spark_Spark优化_使用kryo 序列化

参考文章:1.Spark 配置Kryo序列化机制https://www.jianshu.com/p/68970d1674fa2.Spark kyro Serializationhttps://www.jianshu.com/p/141bb0244f643.Spark中使用kyro序列化https://blog.csdn.net/wangweislk/article/details/789998144.【Spark七十八】Spark Kyro序列化https://www.ite

2020-05-31 15:14:45 3151

原创 Spark_DataFrame 去除 null, NaN 和 空字符串

去除null、NaN去除 dataframe 中的 null 、 NaN 有方法 drop ,用 dataframe.na 找出带有 null、 NaN 的行,用 drop 删除行:df.na.drop()去除空字符串去除空字符串用 dataframe.where :df.where("colname <> '' ")示例代码package com.spark.test.offline.filterimport org.apache.sp...

2020-05-30 19:38:47 8567

原创 Spark_RDD与DataFrame/DataSet 相互转换

参考文章1.https://blog.csdn.net/lemonzhaotao/article/details/802963142.这是个比较基本的知识,我们这里整理下1)RDD 转化为 DataSet / DataFrame 1.通过反射去转化 (有限制) 2.通过定义structType去做转化2) DataFrame / DataSet 转化为 RDDRDD 转化为 DataSet / DataFrame1.通过反射去转化 (有限...

2020-05-30 18:22:41 423

转载 Spark_Spark中DataFrame 基本操作函数

DataFrame的基本操作函数Action 操作1、 collect()返回值是一个数组,返回dataframe集合所有的行2、 collectAsList()返回值是一个java类型的数组,返回dataframe集合所有的行3、 count()返回一个number类型的,返回dataframe集合的行数4、 describe(cols: String*)返回一个通过数学计算的类表值(count, mean, stddev, min, an...

2020-05-30 01:48:46 4190

原创 Spark_SparkSQL / DataFrame 中 groupby 数据倾斜处理方法

数据倾斜,是一个有可能遇到的问题,Hive 中 groupby 数据倾斜, 已经有参数可以很好的支持了。Hive 参考文章https://blog.csdn.net/u010003835/article/details/105495135下面我们看下 SparkSQL 如何解决这种 GroupBy 类型的数据倾斜思路如下: 其实是和 Hive 的 调优参数,将作业拆分为2个参数一样的。 set hive.map.aggr=true; set hive.gro...

2020-05-30 01:14:18 1960

转载 Spark_SparkSQL 函数全集_基于 2.3.0

原文https://blog.csdn.net/liam08/article/details/79663018Summaryorg.apache.spark.sql.functions是一个Object,提供了约两百多个函数。大部分函数与Hive的差不多。除UDF函数,均可在spark-sql中直接使用。经过import org.apache.spark.sql.functions._ ,也可以用于Dataframe,Dataset。version2.3.0大部分支持..

2020-05-30 01:00:05 786

原创 Spark_Union 算子与 Shuffle 流程

今天有被问到 UNION 算子会不会产生 Shuffle 。说实话,这个没有研究过,我们写个demo代码 :package com.spark.test.offlineimport org.apache.spark.{SparkConf, SparkContext}/** * Created by szh on 2020/5/28. */object TestUnion { def main(args: Array[String]): Unit = { ...

2020-05-29 10:23:02 3129 1

原创 数组/链表_两个有序链表的合并

//实现一个函数,输入两个链表(递增),合并为一个链表,依然保持有序。package com.offer.test.listnodecomb;class ListNode { int val; ListNode next = null; ListNode(int val) { this.val = val; }}/** * Created by szh on 2020/5/27. * @author szh */public c.

2020-05-29 00:13:02 458

原创 Spark_Exception in thread main java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

敲黑板 ,引入的依赖 一定要 “compile” 或则 “runtime”,否则spark conf 无法初始化,这辈子也运行不了,千万不要是 “provided". <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <ver...

2020-05-28 11:43:30 3011 1

原创 CDH/YRAN_集群调优

参考文章 :1.yarn资源memory与core计算配置https://www.cnblogs.com/xjh713/p/9855238.html2.cdh之调整YARN(调优yarn 生产必做优化项)004https://blog.csdn.net/weixin_33788244/article/details/91669894内存相关参数 我们在运行使用CDH平台的时候,需要对YARN 的资源配置进行一定的调整。下面我们看一下相关的参数 ,主要的涉及到...

2020-05-27 16:54:10 545

原创 CDH_大数据相关组件的日志,存放目录

CDH 中大数据相关组件的日志目录存放在/var/log/${component} 目录下面。[root@cdh-manager log]# pwd/var/log[root@cdh-manager log]# lltotal 8600drwxr-xr-x. 2 root root 204 Dec 4 2018 anacondadrwx------. 2 root root 9...

2020-05-27 00:13:08 2619

原创 Hadoop_YARN 中 resourceManager / nodeManager / container log 存放日志位置

我们在使用 CDH 做集群管理的时候,非常的方便。下面,详细了解下主要几个节点的日志位置。1.ResourceManager log2.NodeManager log3.Container logResourceManager logResourceManager log 位置相关参数是hadoop.log.dir这里是 /var/log/hadoop-yarn进目录看一下[root@cdh-node2 hadoop-yarn]# pwd/var/log/h...

2020-05-26 23:58:48 5522

转载 Flink_探究Flink on YARN模式下TaskManager的内存分配

原文地址:https://www.jianshu.com/p/4e4c188f5d7b一个问题我们使用如下的参数提交了Flink on YARN作业(per-job模式)。/opt/flink-1.9.0/bin/flink run \--detached \--jobmanager yarn-cluster \--yarnname "x.y.z" \--yarnjobManagerMemory 2048 \--yarntaskManagerMemory 4096 \--.

2020-05-26 23:12:46 4215 1

原创 Flink_Flink On Yarn_flink资源slots 与 Yarn中container, 以及 cores 之间的关系

Based on Flink 1.10.1本文主要讲解下 flink 中 flink-conf.yaml 中有关 slots 的 配置,与 Yarn 中 container 以及 cores 的相应关系。主要涉及以下两个参数# The number of task slots that each TaskManager offers. Each slot runs one parallel pipeline.taskmanager.numberOfTaskSlots: 2...

2020-05-26 21:24:37 4380 1

原创 Flink_Flink ON YARN containerized.heap-cutoff-min 内存调整

今天,我对 Flink ON YARN 集群的内存进行下调整。我调整了 Container 容器最小的分配内存,导致了一系列的问题,这里记录一下。(1)yarn.nodemanager.resource.memory-mb 表示该节点上YARN可使用的物理内存总量,默认是8192(MB),注意,如果你的节点内存资源不够8GB,则需要调减小这个值,而YARN不会智能的探测节点的物理内存总量。(2)yarn.nodemanager.vmem-pmem-ratio 任务每使用1MB...

2020-05-26 19:58:53 1638

原创 Spark_Spark 中 Stage, Job 划分依据 , Job, Stage, Task 基础知识

最近整理一下,之前没注意到的点。本文整理下 Job 与 Stage 的划分依据。参考文章:1.Spark的Job、Stage、Task是按何种规则产生的https://blog.csdn.net/gaopu12345/article/details/791566752.Spark中job、stage、task的划分+源码执行过程分析https://blog.csdn.net/hjw199089/article/details/77938688Job 划分依据 :...

2020-05-26 16:08:23 2701

原创 Spark_Spark 中的 transform 与 action 算子

Base on Spark 2.4.5参考文章 :1.官方文档http://spark.apache.org/docs/latest/rdd-programming-guide.html#transformations2.Spark transform 与action算子https://blog.csdn.net/chixushuchu/article/details/863072683.https://blog.csdn.net/qq_15300683/...

2020-05-25 22:32:28 1447

原创 Flink_Flink的第一个程序,Streaming WordCount

最近,我学习了Flink, 写了个FlinkWordCount。依赖这里使用Maven 进行代码管理 :父Pom<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocatio.

2020-05-25 20:01:19 1003

原创 Flink_YARN 上资源申请流程

Base on Flink 1.10.1 Flink 托管给Yarn 是一个非常常用的形式,下面我们通过官网给出的流程图,了解下 Flink On Yarn 的任务执行流程。前提 :首先,我们如果能让我们的任务在Yarn 上托管执行,我们是需要设置一些环境变量 :The YARN client needs to access the Hadoop configuration to connect to the YARN resource manager and HDFS....

2020-05-25 12:20:24 1065

转载 Flink_Flink 1.10 细粒度资源管理解析

原文地址https://blog.csdn.net/weixin_44904816/article/details/106066579 相信不少读者在开发 Flink 应用时或多或少会遇到在内存调优方面的问题,比如在我们生产环境中遇到最多的 TaskManager 在容器化环境下占用超出容器限制的内存而被 YARN/Mesos kill 掉[1],再比如使用 heap-based StateBackend 情况下 State 过大导致 GC 频繁影响吞吐。这些问题对于不熟悉 Fli...

2020-05-23 02:39:59 972

原创 Flink_Flink TaskManager 内存模型 ,以及相关内存配置参数

Flink 中 TaskManager 中模型比较复杂,本文讲解下 Flink 中的内存模型以及相关的配置 ( 基于 Flink 1.10 )内存分布简介首先我们看一下 Flink 官网给出的内存示意图 :https://ci.apache.org/projects/flink/flink-docs-release-1.10/ops/memory/mem_setup.html#set-up-task-executor-memory一般来说我们只需要选择以下3种方...

2020-05-23 02:03:43 9038

原创 Flink_Flink 集群搭建

本文主要讲解下 flink 如何搭建 :单节点集群standalone 集群yarn session 集群最近学习了下 Flink ,看了许多天的书,一上手搭建集群遇到了许多问题。 我在这里整理下集群搭建所遇到的问题。单节点集群 单节点集群,其实不难。主要我是虚拟机器,内存很小,所以我们要调整 task-manager 的内存参数。task-manager 的内存分配管理 与 参数配置 是一个大问题,我专门写了一篇文章 :...

2020-05-22 22:29:42 2462

转载 HBase_HBase 数据读取流程解析

和写流程相比,HBase读数据是一个更加复杂的操作流程,这主要基于两个方面的原因:其一是因为整个HBase存储引擎基于LSM-Like树实现,因此一次范围查询可能会涉及多个分片、多块缓存甚至多个数据存储文件;其二是因为HBase中更新操作以及删除操作实现都很简单,更新操作并没有更新原有数据,而是使用时间戳属性实现了多版本。删除操作也并没有真正删除原有数据,只是插入了一条打...

2020-05-05 16:42:34 801

转载 大数据_HBase_LSM-TREE 基本原理以及应用

参考文章 :https://www.jianshu.com/p/5c846e205f5fLSM-tree 在 NoSQL 系统里非常常见,基本已经成为必选方案了。今天介绍一下 LSM-tree 的主要思想,再举一个 LevelDB 的例子。目录LSM-tree写入流程:查询流程:LevelDB写入流程:查询流程:LSM-tree读写放大写放大:...

2020-05-05 15:35:21 855

原创 大数据_HBase_HBase 中的 bloom-filter

参考文章:1.详解布隆过滤器的原理、使用场景和注意事项https://www.jianshu.com/p/2104d11ee0a22.数学之美:布隆过滤器https://zhuanlan.zhihu.com/p/72378274什么是布隆过滤器 本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点...

2020-05-05 15:24:42 359

原创 HBase_HBase_原理_Compaction 基于HBase 2.0

本篇文章主要介绍 HBase 中的 LSM -Tree 中的合并,分为以下几个部分目录LSM-Tree Compaction 主要流程Compaction 作用Compaction 分类Minor Compaction :Major Compaction :Compaction 触发条件MemStore Flush:后台线程周期性检查:手动...

2020-05-05 11:39:56 433

转载 HBase_HBase的客户端连接管理

很多人在使用客户端api进行hbase连接的时候,会提出hbase是否有连接池,怎么实现hbase的连接池的问题,更有甚者,许多初学者在开发hbase代码的时候,经常出现hbase连接数的限制等连接问题,归根结底还是对hbase的连接对象Connection不甚了解,下面我们来详细剖析一下hbase的连接对象:

2020-05-03 23:35:07 1130

原创 HBase_HBase_Namespace 相关操作

目录namespace 基本概念namespace 基本操作namespace 相关的创建操作namespace 相关的删除操作namespace相关的查询操作namespace 相关的修改操作namespace 基本概念在HBase中,namespace命名空间指对一组表的逻辑分组,类似RDBMS中的database,方便对表在业务上划分。Apa...

2020-05-03 22:51:40 648

转载 HBase_HBase2.0 vs HBase1.0 特性比较

HBase 升级方案HBase 2.0 新特性1) AssignmentManager V22)In-memory Flush & Compaction3) Offheaping of Read/Write PathHBase 2.0 的 “坑”1) V2.0.3之前的版本不支持HBCK22) 重度依赖 Procedure V2...

2020-05-03 22:07:50 2745

转载 HBase_HBase架构解析_基于Hbase2.0

HBase架构组成HMaster组成HRegionServer节点Zookeeper集群HBase容错机制HBase架构组成HBase 采用 Master / Slave 架构搭建集群,它隶属于 Hadoop 生态系统,由以下几个类型的节点组成HMaster节点、HRegionServer节点、ZooKeeper集群而在底层,它将数据存储于...

2020-05-03 19:02:11 1568

原创 HBase_HBase 2.0 Shell 操作指南

HBase 的Shell 是操作HBase 的重要手段。下面我们讲解下Hbase Shell 都能完成那些功能。目录启动Hbase Shell帮助退出debug 模式输入截至 ...

2020-05-01 23:00:48 1171

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除