md_2014-CSDN博客

原创数仓Hive的使用指南

在日常工作中，数据工程师常常需要将处理完毕的数据存到Hadoop的dfs上或者其他分布式数据库中，本文要介绍的是如何将数据输出到hive中，借此梳理下hive的入门使用指南。

2024-08-21 18:15:34 121

原创 sparkSQL创建仅带schema的空目录

sparkSQL创建零数据的schema的空目录

2024-07-17 15:48:26 275

原创 sparkSQL自定义schema的方法

sparkSQL自定义schema的方法

2023-02-28 11:11:32 354

原创编写scala版hive的自定义函数

Scala版Hive用户自定义函数

2023-01-11 17:46:47 573

标题sortShuffleManager一、注册ShuffleHandle的策略首先，在shuffle过程中满足以下条件，选择BypassMergeSortShuffleHandle：1）map端没有聚合操作2）shuffle read partitions <= spark.shuffle.sort.bypassMergeThreshold(阈值默认为200)其次，满足以下条件，选择SerializedShuffleHandle：1）序列化方式支持对象重新定位(意思是可以对已经序列化的对

2021-09-18 17:28:10 664

原创 spark中RDD转DS

情景1. RDD[Row] -> DF方法一：先定义类型为StructType的schema，按字段先后顺序映射到schemaspark.createDataFrame(rdd, schema)方法二：先将其转换成case class类型的RDD，然后按情景2方式转换情景2. RDD[_] -> DF/DS调用toDF/toDS函数转换...

2021-08-20 18:25:20 296

原创 sparkSQL报Unable to find encoder for type stored in a Dataset异常问题解决办法

背景sparkSQL中DataFrame在聚合后按规则在每组中选取一条记录，出现异常报错: error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types

2021-08-19 18:48:06 1194

md_2014的博客

原创数仓Hive的使用指南

原创 sparkSQL创建仅带schema的空目录

原创 sparkSQL自定义schema的方法

原创数据仓库简介

原创编写scala版hive的自定义函数

原创 JTS简介

原创 spark的sortShuffleManager解析

原创 spark中RDD转DS

原创 sparkSQL报Unable to find encoder for type stored in a Dataset异常问题解决办法

原创 spark读取嵌套数据

原创 RoaringBitmap运行机制解析

原创刨析Spark的shuffleManager原理

空空如也

空空如也