spark dataframe中createOrReplaceTempView()和cache()

最新推荐文章于 2025-02-15 16:42:59 发布

木给哇啦丶

最新推荐文章于 2025-02-15 16:42:59 发布

阅读量7.7k

点赞数

分类专栏： spark 文章标签： spark 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lquarius/article/details/106843888

版权

spark 专栏收录该内容

25 篇文章

订阅专栏

它们都是为了快速访问数据集。两者有什么区别？

createOrReplaceTempView将一个DataFrame表注册为一个表，您可以使用SQL查询该表（绑定到注册该表的生命周期SparkSession-因此Temp是名称的一部分）。但是请注意，此方法不允许您实现任何性能改进。

cache（或persist）标记DataFrame在执行以下操作后要缓存的内容，从而可以在后续操作中更快地进行访问。DataFrame就像RDD一样，表示对基础（分布式）数据结构（血缘关系）执行的计算顺序。每当您执行转换时（例如：通过将功能应用于每个记录map），您都将获得更新的沿袭。每当您对实际执行某项操作时DataFrame，必须执行某种谱系的某种计算，每次都会重新执行它，除非它已经被缓存并且可以使用。

这意味着使用cache或persist将帮助您优化需要DataFrame多次访问内容的情况。

问题解决来源：What is the difference between createOrReplaceTempView(viewName) and cache() on a DataSet [duplicate]

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。