alie_123
码龄1年
关注
提问 私信
  • 博客:7,678
    7,678
    总访问量
  • 13
    原创
  • 2,109,005
    排名
  • 135
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2023-09-27
博客简介:

alie_123的博客

查看详细资料
个人成就
  • 获得81次点赞
  • 内容获得13次评论
  • 获得70次收藏
创作历程
  • 2篇
    2024年
  • 11篇
    2023年
成就勋章
TA的专栏
  • Spark
    2篇
  • PySpark
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

[PySpark学习]RDD的重要算子

1、 map和foreach算子都有对应的分区算子,分别是mapPartitions和foreachPartition2、 分区算子适用于有反复消耗资源的操作,例如:文件的打开和关闭、数据库的连接和关闭等,能够减少操作的次数。3、 如果没有反复消耗资源的操作,调用两类算子,效果一样。1、 这两个算子都是用来改变RDD的分区数。2、 repartition 既能够增大RDD分区数,也能够减小RDD分区数。但是都会导致发生Shuffle过程。
原创
发布博客 2024.01.08 ·
1068 阅读 ·
23 点赞 ·
1 评论 ·
15 收藏

[PySpark学习]RDD的转换(Transformation)与动作算子(Action)

RDD(英文全称Resilient Distributed Dataset),即弹性分布式数据集是spark中引入的一个数据结构,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区。Distributed分布式:RDD的数据可以分布式存储,可以进行并行计算。Dataset数据集:一个用于存放数据的集合。
原创
发布博客 2024.01.04 ·
1547 阅读 ·
24 点赞 ·
2 评论 ·
26 收藏

Hive SQL实现行转列跟列转行

原理:将UDTF(表生成函数)的结果构建成一个类似于视图的表,然后将原表中的每一行和UDTF函数输出的每一行进行连接,生成一张新的虚拟表。from 表名 lateral view UDTF(xxx) 侧视图名 as 字段名;以上就是hive SQL中行列转换的具体解决方案了。1、首先将单列数据先切割再使用炸裂函数炸开;2、同时配合侧视图生成最后完整表。
原创
发布博客 2023.12.15 ·
755 阅读 ·
4 点赞 ·
0 评论 ·
10 收藏

[Hive学习]缓慢渐变维与拉链表

在数仓建模中数据一般分为维度跟指标,维度就是基本不变、固定的数据,比如年、月、日、住址、手机号、区域、门店等。维度可以根据变化剧烈程度主要分为,但大多数维度数据会随时间的迁移是缓慢变化的,也称为缓慢渐变维(SCD)。缓慢渐变维,即维度中的属性可能会随着时间发生改变,比如包含用户住址Address的DimCustomer维度,用户的住址可能会发生改变,进而影响业务统计精度。
原创
发布博客 2023.12.14 ·
280 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

[Hive学习]聚合增强函数解析:grouping sets、cube、rollup、grouping判断

本文介绍了hive聚合增强函数:grouping sets、cube、rollup、grouping判断的使用方法及注意细节。
原创
发布博客 2023.12.13 ·
1827 阅读 ·
30 点赞 ·
1 评论 ·
18 收藏

[python学习](八)python数据容器:集合和字典

集合的形式为大括号 { }集合名 = set()注意:不能使用:集合名 = { },这打印出来的数据类型为字典,下面会讲到集合名 = {元素1,元素2,...}字典的形式为大括号 { key:value }字典名 = dict()字典名 = { }字典名 = {k1:v1 , k2:v2 , ...}注意:每一个元素都是一个键值对。
原创
发布博客 2023.10.06 ·
228 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

[python学习](七)python数据容器:元组和字符串

元组的形式为小括号 ( )有两种方法可以定义:元组名 = ( )元组名 = tuple()元组名 = (元素1,元素2,...)注意:如果只有一个元素,需要加上逗号,如:元组名 = (元素,)字符串的形式为引号 :' ' " "(1)定义空字符串空字符串:字符串名=str() 字符串名='' 或者 字符串名="" 或者 字符串名='''''' 或者 字符串名=""""""(2)定义非空字符串。
原创
发布博客 2023.10.06 ·
77 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

[python学习](六)python数据容器-列表

空列表: 列表名=[] 或者 列表名=list()非空列表: 列表名=[元素1,元素2,元素3,...]列表支持嵌套。
原创
发布博客 2023.10.04 ·
61 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

[python学习](五)函数基础

def 函数名(形式参数):"""此处可以加函数的说明文档...:param: 解释参数:return: 解释返回值"""函数体return 返回值。
原创
发布博客 2023.10.03 ·
77 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

[python学习](四)循环语句:while循环和for循环

1、while循环基础步骤:1.定义变量赋初始值2.条件判断3.循环体4.条件控制2、while循环基础格式:变量名 = 初始值while 条件判断:循环体条件控制3、while无限循环:无限循环: 又叫死循环,恒成立的条件,循环的内容如果不设置条件不会停下来实现无限循环的方式:方式1: 正常的while循环,不加条件控制方式2: while循环条件用两个字面量比较结果是True方式3(建议): while循环条件直接用True。
原创
发布博客 2023.10.02 ·
910 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

[python学习](三)input函数及if判断语句

需求: 定义两个变量,分别存储你自己的姓名和年龄,# 要求打印结果: 我的姓名是xxx,我的年龄是xx岁# 1.定义变量存储数据name = '张三'age = 20# 2.格式化输出# 方式1: print输出多个内容的方式print('我的姓名是', name, ',我的年龄是', age, '岁')# 方式2: ‘+ ‘拼接多个字符串print('我的姓名是' + name + ',我的年龄是' + str(age) + '岁')
原创
发布博客 2023.10.01 ·
667 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

[python学习](二)python基础语法

可以用两种方法编写1、通过黑窗口(win+R)弹窗输入cmd —> 输入python进入python编程。
原创
发布博客 2023.09.30 ·
67 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

[python学习](一)学习前准备,理解大数据与计算机

在当今世界,大数据已经成为了生活中的方方面面,下面的文章介绍大数据的相关知识及计算机的组成部分。
原创
发布博客 2023.09.29 ·
98 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏