自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 数仓Hive的使用指南

在日常工作中,数据工程师常常需要将处理完毕的数据存到Hadoop的dfs上或者其他分布式数据库中,本文要介绍的是如何将数据输出到hive中,借此梳理下hive的入门使用指南。

2024-08-21 18:15:34 121

原创 sparkSQL创建仅带schema的空目录

sparkSQL创建零数据的schema的空目录

2024-07-17 15:48:26 275

原创 sparkSQL自定义schema的方法

sparkSQL自定义schema的方法

2023-02-28 11:11:32 354

原创 数据仓库简介

数据仓库

2023-01-30 11:38:52 123

原创 编写scala版hive的自定义函数

Scala版Hive用户自定义函数

2023-01-11 17:46:47 573

原创 JTS简介

GIS开源架构JTS简介

2022-11-09 18:48:32 1890

原创 spark的sortShuffleManager解析

标题sortShuffleManager一、注册ShuffleHandle的策略首先,在shuffle过程中满足以下条件,选择BypassMergeSortShuffleHandle:1)map端没有聚合操作2)shuffle read partitions <= spark.shuffle.sort.bypassMergeThreshold(阈值默认为200)其次,满足以下条件,选择SerializedShuffleHandle:1)序列化方式支持对象重新定位(意思是可以对已经序列化的对

2021-09-18 17:28:10 664

原创 spark中RDD转DS

情景1. RDD[Row] -> DF方法一:先定义类型为StructType的schema,按字段先后顺序映射到schemaspark.createDataFrame(rdd, schema)方法二:先将其转换成case class类型的RDD,然后按情景2方式转换情景2. RDD[_] -> DF/DS调用toDF/toDS函数转换...

2021-08-20 18:25:20 296

原创 sparkSQL报Unable to find encoder for type stored in a Dataset异常问题解决办法

背景sparkSQL中DataFrame在聚合后按规则在每组中选取一条记录,出现异常报错: error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types

2021-08-19 18:48:06 1194

原创 spark读取嵌套数据

spark读取嵌套数据背景:最近,我遇到一种场景,需要从复杂的源数据(含有嵌套字段)中抽取部分嵌套字段,经过一番摸索,发现可以通过以下方式来抽取数据。import org.apache.spark.sql.types._val schema = new StructType().add("typeId", IntegerType).add("offsetId", LongType).add("data", ArrayType( new StructType() .add("f1", Long

2021-01-12 17:26:16 285 1

原创 RoaringBitmap运行机制解析

背景用于将int类型转换成bitmap类型public static RoaringBitmap bitmapOf(final int... dat) { final RoaringBitmap ans = new RoaringBitmap(); ans.add(dat); return ans; }运行机制初始化bitmapfinal RoaringBitmap ans = new RoaringBitmap();在初始化过程中,无参构造器会新建一个Roari

2020-12-22 22:25:07 478 1

原创 刨析Spark的shuffleManager原理

刨析Spark的shuffleManager原理发展史sortShuffleManagershuffleWriter数据写入缓存时,如果是聚合类的shuffle算子【比如reduceByKey】,那么会选用MAP数据结构,如果是非聚合类的shuffle算子【比如join】,那么会选用Array数据结构。private[spark] class SortShuffleWriter[K, V, C]( shuffleBlockResolver: IndexShuffleBlockResol

2020-12-11 18:29:37 170

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除