基于mdrill的大数据分析

原创 2014年02月18日 12:44:11
     数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析?
mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10台机器,达到秒级响应,数据能实时导入,可以对任意的维度进行组合与过滤。
    mdrill作为数据在线分析处理软件,可以在几秒到几十秒的时间,分析百亿级别的任意组合维度的数据。
在阿里10台机器完成每日30亿的数据存储,其中10亿为实时的数据导入,20亿为离线导入。目前集群的总存储3200多亿80~400维度的数据。

mdrill的特性

1.满足大数据查询需求:adhoc每天的数据量为30亿条,随着日积月累,数据会越来越大,mdrill采用列存储,索引,分布式技术,适当的分区等满足用户对数据的实时在线分析的需求。

2.支持增量更新:离线形式的mdrill数据支持按照分区方式的增量更新。

3.支持实时数据导入:在仅有10台机器的情况下,支持每天10亿级别(高峰每小时2亿)的实时导入。

4.响应时间快:列存储、倒排索引、高效的数据压缩、内存计算,各种缓存、分区、分布式处理等等这些技术,使得mdrill可以仅在几秒到几十秒的时间分析百亿级别的数据。

5.低成本:目前在阿里adhoc仅仅使用10台48G内存的PC机,但确存储了超过千亿规模的数据。

6.全文检索模式:在mdrill的全文检索模式数据可以直接存储在hdfs中,并且以每天160亿*70维度的数据增量提供全文检索服务(注:该模式下不能进行统计,只能进行关键词匹配查询数据明细)

mdrill的定位

大数据

要数据量大,几十亿上百亿。
还要省钱,普通PC就能搞定。

多维分析

要任意维度组合与过滤
还要对任意指标进行统计和排序

即席查询

要查询快,秒级响应。
还要数据快,数据分钟级延迟。


资源列表

其他


在线分析查询系统mdrill

1:mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目。 2:mdrill旨在帮助用户在几秒到几十秒的时间内,分析百亿级别的任意维度组合的数据。 3:mdrill是一个...
  • cnbird2008
  • cnbird2008
  • 2014-02-08 12:03:49
  • 3294

大数据江湖之即席查询与分析(上篇)--即席查询与分析的前世今生

如今,大数据领域新技术层出不穷,可谓百家争鸣,甚是红火。不乏有些玩家动辄搞出个大数据平台,可谓包罗万象,号称无所不能。小弟则以为在大数据江湖中如能修炼好独门绝技,有能拿得出手的看家本领已然实属不易。小...
  • vv8086
  • vv8086
  • 2017-02-20 17:16:07
  • 2805

五十款阿里开源软件说明介绍

通过写这篇文章从开源中国站上面看了很多,也从那里将开源软件的基本的介绍和下载地址拷贝到了文章当中,总体给我的一个感受就是阿里的开源实在太强大了,多到需要花大量的时间去了解。今天写这篇文章主要是对阿里开...
  • boonya
  • boonya
  • 2017-02-13 17:37:08
  • 8936

mdrill安装(3)

新建表 9.1建表SQL 2执行建表命令 9.3设置表文件夹访问权限 10、导入数据 11、生成索引 12、启动表 新建表 9.1建表SQL ...
  • codemosi
  • codemosi
  • 2015-03-02 10:07:50
  • 606

Mdrill项目在lucene的改进上的10点心得

word版本地址:https://github.com/alibaba/mdrill/blob/master/doc/Mdrill%E9%A1%B9%E7%9B%AE%E5%9C%A8lucene%E...
  • muyannian
  • muyannian
  • 2014-06-12 17:23:42
  • 3876

延云YDB相对于Mdrill的优势

索引存储在HDFS中。硬件损坏-数据与任务自动迁移无须人工干预。 (原先需要数小时的索引迁移恢复时间) 数据时效性提高(由原先的几小时到现在的几分钟)。 每天数据增量由离线几十亿到现在的实时导入...
  • qq_33160722
  • qq_33160722
  • 2015-12-03 21:05:18
  • 822

adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦

adhoc-海量数据多维自助即席查询平台-mdrill项目开源啦 1:mdrill是阿里妈妈-adhoc-海量数据多维自助即席查询平台下的一个子项目。 2:mdrill旨在帮助用户在几秒到几十秒的时...
  • muyannian
  • muyannian
  • 2013-07-24 13:45:38
  • 3285

大数据江湖之即席查询与分析(下篇)--手把手教你搭建即席查询与分析Demo

上篇小弟分享了几个“即席查询与分析”的典型案例,引起了不少共鸣,好多小伙伴迫不及待地追问我们:说好的“手把手教你搭建即席查询与分析Demo”啥时候能出?说到就得做到,差啥不能差人品,本篇只分享技术干货...
  • muyannian
  • muyannian
  • 2017-03-05 12:07:06
  • 2120

nyoj677 谍战

本题可以说是最小割入门级题目。 如果能想到是最小割问题,那么建图思路便是水到渠成的事了。 添加一个源点S和汇点T; 把S与每个间谍相连,容量为无穷大; 把城市N(即飞机场的位置)与汇点T相连,容量...
  • AQ14AQ1
  • AQ14AQ1
  • 2014-08-27 10:39:37
  • 928

基于mdrill的大数据分析

数据越来越多,传统的关系型数据库支撑不了,分布式数据仓库又非常贵。几十亿、几百亿、甚至几千亿的数据量,如何才能高效的分析? mdrill是由阿里妈妈开源的一套数据的软件,针对TB级数据量,能够仅用10...
  • muyannian
  • muyannian
  • 2014-02-18 12:44:11
  • 8021
收藏助手
不良信息举报
您举报文章:基于mdrill的大数据分析
举报原因:
原因补充:

(最多只允许输入30个字)