自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 [PySpark学习]RDD的重要算子

1、 map和foreach算子都有对应的分区算子,分别是mapPartitions和foreachPartition2、 分区算子适用于有反复消耗资源的操作,例如:文件的打开和关闭、数据库的连接和关闭等,能够减少操作的次数。3、 如果没有反复消耗资源的操作,调用两类算子,效果一样。1、 这两个算子都是用来改变RDD的分区数。2、 repartition 既能够增大RDD分区数,也能够减小RDD分区数。但是都会导致发生Shuffle过程。

2024-01-08 10:56:07 887 1

原创 [PySpark学习]RDD的转换(Transformation)与动作算子(Action)

RDD(英文全称Resilient Distributed Dataset),即弹性分布式数据集是spark中引入的一个数据结构,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区。Distributed分布式:RDD的数据可以分布式存储,可以进行并行计算。Dataset数据集:一个用于存放数据的集合。

2024-01-04 21:18:57 1429 2

原创 Hive SQL实现行转列跟列转行

原理:将UDTF(表生成函数)的结果构建成一个类似于视图的表,然后将原表中的每一行和UDTF函数输出的每一行进行连接,生成一张新的虚拟表。from 表名 lateral view UDTF(xxx) 侧视图名 as 字段名;以上就是hive SQL中行列转换的具体解决方案了。1、首先将单列数据先切割再使用炸裂函数炸开;2、同时配合侧视图生成最后完整表。

2023-12-15 22:17:02 366

原创 [Hive学习]缓慢渐变维与拉链表

在数仓建模中数据一般分为维度跟指标,维度就是基本不变、固定的数据,比如年、月、日、住址、手机号、区域、门店等。维度可以根据变化剧烈程度主要分为,但大多数维度数据会随时间的迁移是缓慢变化的,也称为缓慢渐变维(SCD)。缓慢渐变维,即维度中的属性可能会随着时间发生改变,比如包含用户住址Address的DimCustomer维度,用户的住址可能会发生改变,进而影响业务统计精度。

2023-12-14 20:11:17 155 1

原创 [Hive学习]聚合增强函数解析:grouping sets、cube、rollup、grouping判断

本文介绍了hive聚合增强函数:grouping sets、cube、rollup、grouping判断的使用方法及注意细节。

2023-12-13 22:04:49 582 1

原创 [python学习](八)python数据容器:集合和字典

集合的形式为大括号 { }集合名 = set()注意:不能使用:集合名 = { },这打印出来的数据类型为字典,下面会讲到集合名 = {元素1,元素2,...}字典的形式为大括号 { key:value }字典名 = dict()字典名 = { }字典名 = {k1:v1 , k2:v2 , ...}注意:每一个元素都是一个键值对。

2023-10-06 21:43:31 191 1

原创 [python学习](七)python数据容器:元组和字符串

元组的形式为小括号 ( )有两种方法可以定义:元组名 = ( )元组名 = tuple()元组名 = (元素1,元素2,...)注意:如果只有一个元素,需要加上逗号,如:元组名 = (元素,)字符串的形式为引号 :' ' " "(1)定义空字符串空字符串:字符串名=str() 字符串名='' 或者 字符串名="" 或者 字符串名='''''' 或者 字符串名=""""""(2)定义非空字符串。

2023-10-06 21:09:45 59 1

原创 [python学习](六)python数据容器-列表

空列表: 列表名=[] 或者 列表名=list()非空列表: 列表名=[元素1,元素2,元素3,...]列表支持嵌套。

2023-10-04 11:21:42 37 1

原创 [python学习](五)函数基础

def 函数名(形式参数):"""此处可以加函数的说明文档...:param: 解释参数:return: 解释返回值"""函数体return 返回值。

2023-10-03 11:00:10 38 1

原创 [python学习](四)循环语句:while循环和for循环

1、while循环基础步骤:1.定义变量赋初始值2.条件判断3.循环体4.条件控制2、while循环基础格式:变量名 = 初始值while 条件判断:循环体条件控制3、while无限循环:无限循环: 又叫死循环,恒成立的条件,循环的内容如果不设置条件不会停下来实现无限循环的方式:方式1: 正常的while循环,不加条件控制方式2: while循环条件用两个字面量比较结果是True方式3(建议): while循环条件直接用True。

2023-10-02 12:03:09 795 1

原创 [python学习](三)input函数及if判断语句

需求: 定义两个变量,分别存储你自己的姓名和年龄,# 要求打印结果: 我的姓名是xxx,我的年龄是xx岁# 1.定义变量存储数据name = '张三'age = 20# 2.格式化输出# 方式1: print输出多个内容的方式print('我的姓名是', name, ',我的年龄是', age, '岁')# 方式2: ‘+ ‘拼接多个字符串print('我的姓名是' + name + ',我的年龄是' + str(age) + '岁')

2023-10-01 11:24:35 504 1

原创 [python学习](二)python基础语法

可以用两种方法编写1、通过黑窗口(win+R)弹窗输入cmd —> 输入python进入python编程。

2023-09-30 12:44:32 38 1

原创 [python学习](一)学习前准备,理解大数据与计算机

在当今世界,大数据已经成为了生活中的方方面面,下面的文章介绍大数据的相关知识及计算机的组成部分。

2023-09-29 14:44:15 50 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除