自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

lxq1145371298的博客

原创 Spark SQL数据源 - Parquet文件

对于这种情况，Spark SQL读取Parquet数据源时可以自动检测并合并所有Parquet文件的Schema。导入SaveMode类后，执行命令：usersdf.select("name", "favorite_color").write.mode(SaveMode.Overwrite)parquet("hdfs://master:9000/result")加载和写入Parquet文件时，除了可以使用load()方法和save()方法外，还可以直接使用Spark SQL内置的parquet()方法。

2023-06-15 13:57:23 529

原创 RDD持久化机制

可以在RDD上使用persist()或cache()方法来标记要持久化的RDD（cache()方法实际上底层调用的是persist()方法）。Spark的缓存是容错的：如果缓存的RDD的任何分区丢失，Spark就会按照该RDD原来的转换过程自动重新计算并缓存。计算RDD4，就是基于RDD3缓存的数据开始计算，不用从头到尾跑一趟。计算RDD5，就是基于RDD3缓存的数据开始计算，不用从头到尾跑一趟。查看RDD4内容，会从RDD1到RDD2到RDD3到RDD4跑一趟。计算到RDD3时，标记持久化。

2023-06-14 23:04:48 146

原创 RDD容错机制

Spark建议，在将RDD标记为检查点之前，最好将RDD持久化到内存，因为Spark会单独启动一个任务将标记为检查点的RDD的数据写入文件系统，如果RDD的数据已经持久化到了内存，将直接从内存中读取数据，然后进行写入，提高数据写入效率，否则需要重复计算一遍RDD的数据。cache()或者persist()是将数据存储于机器本地的内存或磁盘，当机器发生故障时无法进行数据恢复，而检查点是将RDD数据存储于外部的共享文件系统（例如HDFS），共享文件系统的副本机制保证了数据的可靠性。（二）与RDD持久化的区别。

2023-06-14 22:41:49 182

原创 RDD依赖

1.RDD宽依赖 2.RDD窄依赖

2023-06-14 22:07:17 127

原创利用RDD映射算子打印菱形

【代码】利用RDD映射算子打印菱形。

2023-06-13 22:05:34 64

原创简单使用Spark SQL

【代码】简单使用Spark SQL。

2023-06-13 21:31:50 73

原创掌握RDD分区

RDD分区概念RDD是一个大的数据集合，该集合被划分成多个子集合分布到了不同的节点上，而每一个子集合就称为分区（Partition）。因此，也可以说，RDD是由若干个分区组成的。RDD分区作用在分布式程序中，网络通信的开销是很大的，因此控制数据分布以获得最少的网络传输可以极大的提升程序的整体性能，Spark程序可以通过控制RDD分区方式来减少通信开销。Spark中所有的RDD都可以进行分区，系统会根据一个针对键的函数对元素进行分区。

2023-06-12 21:31:40 62

原创掌握RDD的创建

【代码】掌握RDD的创建。

2023-06-12 16:34:21 70

原创搭建Spark开发环境

前往官网下载Spark安装包。

2023-06-12 16:04:53 42

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

吃嘎嘎丶 CSDN认证博客专家 CSDN认证企业博客

码龄1年

IP 属地：四川省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

9: 原创

145万+: 周排名

207万+: 总排名

1295: 访问

: 等级

130: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

最新评论

Spark SQL数据源 - Parquet文件
CSDN-Ada助手: 非常感谢您写出这篇有关Spark SQL数据源 - Parquet文件的博客，内容详实、语言简洁，让我受益匪浅。恭喜您已经写出了第9篇博客，这是一件值得庆幸的事情。接下来，我建议您可以尝试写一些Spark SQL相关的实战案例，或者是对一些常见问题的解决方案进行分享，这样可以进一步提高读者的实践能力。再次感谢您的分享，期待您更多的精彩作品。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。

最新文章

提示

确定要删除当前文章？

取消删除