Dremio数据湖引擎(一):简介

在进入主题前,先聊下数据湖这个概念。百度百科中对该名词有如下解释:

数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。

  说白了,数据湖的意思就是将不同存储类型、不同种类的数据汇聚在一起,例如在一个存储集群中分别有MySQL、Mongodb、s3等等数仓数据,这个存储集群统一对外就是一个数据湖了。

  博主所在的项目最近在技术演进中引入了近几年悄然火热的数据湖引擎—Dremio。接下来将通过文章总结下自己对Dremio的理解。

  Dremio是新一代的数据湖引擎,它通过直接在云数据湖存储中进行实时的、交互式的查询来释放数据价值。其官网首页第一句话就能很好诠释Dremio真正想要做的事情。

“Set Your Data Free”

“释放你的数据”

Dremio有以下几个主要的特点:

  • 快速的数据查询
  • 自助式服务语义层
  • 灵活并且基于开源技术
  • 强大的JOIN性能

根据对Dremio官方Doc的研读和自己的一些项目实践,我挑选了以下Dremio的技术特点,用来展示Dremio的独特:

快速的数据查询

  在Dremio中,查询数据是直达数据湖存储的,无论数据是存储在S3、ADLS、Hadoop、MySQL、Mongodb等载体上。Dremio使用了包括不限于以下技术来加速每次的查询:

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值