delta spark_Delta Lake为Apache Spark数据集提供了新的功能

delta spark

Apache Spark的原始开发人员创建的Databricks公司已经发布了Delta Lake ,它是Spark的开源存储层,可提供ACID事务和其他数据管理功能,以进行机器学习和其他大数据工作。

许多类型的数据工作都需要功能,例如ACID事务或模式实施以保持一致性,元数据管理以提高安全性以及使用离散版本的数据的能力。 并非所有数据源都具备类似这些功能的标准,因此Delta Lake为任何Spark DataFrame数据源提供了这些功能。

[InfoWorld的要点: 什么是Apache Spark? 大数据分析平台介绍了以下内容Spark教程:Apache Spark入门什么是数据挖掘? 分析如何发现见解 | 通过《 InfoWorld日报》时事通讯了解最新的企业技术中的关键新闻和问题。 ]

Delta Lake可用作访问HDFS等存储系统的替代产品。 通过Delta Lake吸收到Spark中的数据以Parquet格式存储在您选择的云存储服务中。 开发人员可以使用他们选择的Java,Python或Scala访问Delta Lake的API集。

Delta Lake支持用于读取和写入数据的大多数现有Spark SQL DataFrame函数。 它还支持Spark结构化流作为源或目标,尽管不是DStream API。 每次通过Delta Lake进行的读取和写入都具有ACID事务保证,因此,多个写入器会将其写入序列化,并且多个读取器将看到一致的快照。

读取特定版本的数据集(Delta Lake文档称为“时间旅行”),只需读取带有相关时间戳或版本ID的DataFrame即可。 Delta Lake还确保要写入的DataFrame的架构与要写入的表相匹配; 如果不匹配,它将引发异常而不是更改架构。 (在这种情况下,Spark的文件API将替换该表。)

Delta Lake的未来版本可能会支持Spark的更多公共API集,尽管DataFrameReader / Writer是目前的主要重点。

翻译自: https://www.infoworld.com/article/3391065/delta-lake-gives-apache-spark-data-sets-new-powers.html

delta spark

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值