基于mdrill的大数据分析

原创 2014年02月18日 12:44:11
     数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析?
mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤。
    mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。
在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储3200多亿80~400维度的数据。

mdrill的特性

1.满足大数据查询需求:adhoc每天的数据量为30亿条,随着日积月累,数据会越来越大,mdrill采用列存储,索引,分布式技术,适当的分区等满足用户对数据的实时在线分析的需求。

2.支持增量更新:离线形式的mdrill数据支持按照分区方式的增量更新。

3.支持实时数据导入:在仅有10台机器的情况下,支持每天10亿级别(高峰每小时2亿)的实时导入。

4.响应时间快:列存储、倒排索引、高效的数据压缩、内存计算,各种缓存、分区、分布式处理等等这些技术,使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。

5.低成本:目前在阿里adhoc仅仅使用10台48G内存的PC机,但确存储了超过千亿规模的数据。

6.全文检索模式:在mdrill的全文检索模式数据可以直接存储在hdfs中,并且以每天160亿*70维度的数据增量提供全文检索服务(注:该模式下不能进行统计,只能进行关键词匹配查询数据明细)

mdrill的定位

大数据

要数据量大,几十亿上百亿。
还要省钱,普通PC就能搞定。

多维分析

要任意维度组合与过滤
还要对任意指标进行统计和排序

即席查询

要查询快,秒级响应。
还要数据快,数据分钟级延迟。


资源列表

其他


在线分析查询系统mdrill

1:mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目。 2:mdrill旨在帮助用户在几秒到几十秒的时间内,分析百亿级别的任意维度组合的数据。 3:mdrill是一个...
  • cnbird2008
  • cnbird2008
  • 2014年02月08日 12:03
  • 3227

大数据江湖之即席查询与分析(上篇)--即席查询与分析的前世今生

如今,大数据领域新技术层出不穷,可谓百家争鸣,甚是红火。不乏有些玩家动辄搞出个大数据平台,可谓包罗万象,号称无所不能。小弟则以为在大数据江湖中如能修炼好独门绝技,有能拿得出手的看家本领已然实属不易。小...
  • vv8086
  • vv8086
  • 2017年02月20日 17:16
  • 2034

阿里巴巴技术大牛赏鉴

开源公司黄页 / 阿里巴巴 的 120 款开源软件,第 1 页 软件过滤:          所有编程语言  Java  C/C++  Objective-C  PHP  ...
  • qq_26562641
  • qq_26562641
  • 2016年09月23日 17:15
  • 3817

大数据江湖之即席查询与分析(上篇)--即席查询与分析的前世今生

如今,大数据领域新技术层出不穷,可谓百家争鸣,甚是红火。不乏有些玩家动辄搞出个大数据平台,可谓包罗万象,号称无所不能。小弟则以为在大数据江湖中如能修炼好独门绝技,有能拿得出手的看家本领已然实属不易。小...
  • muyannian
  • muyannian
  • 2017年03月05日 12:04
  • 758

adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦

adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦 1:mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目。 2:mdrill旨在帮助用户在几秒到几十秒的时...
  • muyannian
  • muyannian
  • 2013年07月24日 13:45
  • 3049

延云YDB相对于Mdrill的优势

索引存储在HDFS中。硬件损坏-数据与任务自动迁移无须人工干预。 (原先需要数小时的索引迁移恢复时间) 数据时效性提高(由原先的几小时到现在的几分钟)。 每天数据增量由离线几十亿到现在的实时导入...
  • qq_33160722
  • qq_33160722
  • 2015年12月03日 21:05
  • 757

【干货】阿里巴巴 开源软件列表

文章来源:开源中国 原文链接:http://www.oschina.net/project/alibaba?sort=view&p=5 来自:IT大佬 导读 阿里的开源项目很多...
  • xyw591238
  • xyw591238
  • 2016年06月24日 08:50
  • 1610

干货阿里巴巴 开源软件列表

阿里的开源项目很多,这也跟@淘宝正明的开源态度密不可分。有很多重量级的项目,例如LVS、Tengine,或者很有实践价值的中间件,今天小编为大家汇总了阿里开源的项目,快来看看吧! 服务框...
  • u012562943
  • u012562943
  • 2016年06月01日 09:14
  • 8109

Mdrill项目在lucene的改进上的10点心得

word版本地址:https://github.com/alibaba/mdrill/blob/master/doc/Mdrill%E9%A1%B9%E7%9B%AE%E5%9C%A8lucene%E...
  • muyannian
  • muyannian
  • 2014年06月12日 17:23
  • 3756

大数据江湖之即席查询与分析(下篇)--手把手教你搭建即席查询与分析Demo

上篇小弟分享了几个“即席查询与分析”的典型案例,引起了不少共鸣,好多小伙伴迫不及待地追问我们:说好的“手把手教你搭建即席查询与分析Demo”啥时候能出?说到就得做到,差啥不能差人品,本篇只分享技术干货...
  • muyannian
  • muyannian
  • 2017年03月05日 12:07
  • 1533
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:基于mdrill的大数据分析
举报原因:
原因补充:

(最多只允许输入30个字)