Delta Lake 基础操作篇

lucklilili

已于 2022-03-05 14:50:57 修改

阅读量1.5k

点赞数

分类专栏： Data Lake 文章标签： spark big data 大数据

于 2022-02-16 21:38:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lucklilili/article/details/122972173

版权

Data Lake 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

我们在使用 Delta 是非常简单的，这也是 Delte Lake 介绍的 100% 兼容 Spark。Delta Lake 写数据是其最基本的功能，而且其使用和现有的 Spark 写 Parquet 文件基本一致，只不过换做成format("delta")。在介绍 Delta Lake 实现原理之前先来看看如何使用它，使用如下：

我的Spark版本是：3.1.1

如果需要使用Delta，我们在启动spark-shell 新增 --packages参数即可

spark-shell --packages io.delta:delta-core_2.12:0.8.0 --conf "spark.sql.extensions=io.delta.sql.DeltaSparkSessionExtension"

第一次使用Delta可能需要点时间，需要下载Delta相关8个 jar包

官方案例：

To create a Delta table, write a DataFrame out in the delta format. You can use existing Spark SQL code and change the format from parquet, csv, json, and so on, to delta.

val data = spark.range(0, 5)
data.write.format("delta").save("/tmp/delta-table")

on parquet。

You read data in your Delta table by specifying the path to the files: "/tmp/delta-table":

val df = spark.read.format("delta").load("/tmp/delta-table")
df.show()

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Delta Lake 基础操作篇

我们在使用写 Delta 数据是非常简单的，这也是 Delte Lake 介绍的 100% 兼容 Spark。Delta Lake 写数据是其最基本的功能，而且其使用和现有的 Spark 写 Parquet 文件基本一致，只不过换做成format("delta")。在介绍 Delta Lake 实现原理之前先来看看如何使用它，使用如下：我的Spark版本是：3.1.1如果需要使用Delta，我们在启动spark-shell 新增 --packages参数即可./spark-shell -
复制链接

扫一扫

专栏目录

lucklilili CSDN认证博客专家 CSDN认证企业博客

码龄6年

83: 原创

7万+: 周排名

83万+: 总排名

13万+: 访问

: 等级

971: 积分

459: 粉丝

70: 获赞

14: 评论

112: 收藏

私信

关注

热门文章

分类专栏

最新评论

Spark优化篇：数据倾斜解决
二狗他毛叔: # coding:utf8 from pyspark import SparkContext,SparkConf from pyspark.sql import SparkSession from operator import add from SparkConf import PysparkConf # 通过传入表名和列明查询该表中10%的数据中该列出现次数最多的字符串 class SempKey(object): spark = PysparkConf().Pyconf("sampleTopKey",20) def sampleTopKey(self,tablename, keyColumn): ''' :param tablename: 查询的表名 :param keyColumn: 查询关联键的列明 :return: 前10个大key及其出现在10%数据中的频次 ''' strs = "select " + keyColumn + " from " + tablename + ";" print("=======执行分析表"+tablename+"中"+keyColumn+"字段中频率最高的20个key"+"===========") df = self.spark.sql(strs) max20_df = df.select(keyColumn).sample(0.1).rdd.map(lambda x: (x, 1)) \ .reduceByKey(add) \ .map(lambda x: (x[1], x[0])) \ .sortByKey(ascending=False) \ .take(10) return max20_df
Spark优化篇：数据倾斜解决
天空满是数据: 大佬，可以补充python的代码吗
Spark优化篇：数据倾斜解决
lucklilili: 可以，尝试着解读以下代码： def randomPrefixUDF( value: Int, num: Int ): String = { new Random().nextInt(num).toString + "_" + value } def removeRandomPrefixUDF( value: String ): String = { value.toString.split("_")(1) }
Spark优化篇：数据倾斜解决
qqMrrz: 您回答的太深奥了，可以帮忙举个例子吗，
Spark优化篇：数据倾斜解决
lucklilili: 只控制散列度和位数即可。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。