Hadoop
山水佳音
来自千古龙飞地,关注互联网,大数据、数据仓库及创新应用。
展开
-
盘点SQL on Hadoop中用到的主要技术
盘点SQL on Hadoop中用到的主要技术发表于1小时前|165次阅读| 来源github|0 条评论| 作者肥男爱肉转载自:http://www.csdn.net/article/2015-01-06/2823450HadoopSQL大数据架构摘要:自打Hive出现之后,SQL on Hadoop相关的系统已经百花齐放,速度越来越快,功能也越来越齐全。本文不是要去转载 2015-01-07 12:46:59 · 3752 阅读 · 0 评论 -
中小企业的大数据技术路线选择(二)-Cassandra+Presto方案
我前面曾经写过:中小企业的大数据技术路线选择 和 低调、奢华、有内涵的敏捷式大数据方案:Flume+Cassandra+Presto+SpagoBI 。前面用两个月的时间验证了Presto JDBC驱动、Prestogres和SHIB三种方案。Prestogres,可以使用PostgreSQL 客户端和JDBC驱动,支持SpagoBI等BI工具。但这种方式架构复杂,可能有性能瓶颈,无法发挥该方案的优势。SHIB现在代码量较小,在Team中有报表开发经验的成员即可上手。如果时间和人力允许,开发一个轻量级的Bi原创 2015-03-16 14:21:49 · 3798 阅读 · 2 评论 -
2015年大数据年终工作总结
2015年大数据年终工作总结 今天是2016年第7天,现在来回顾下过去的2015年在大数据研发上的点点滴滴,总结如下三个方面:一、大数据研发技术路线 2015年大数据技术依旧是乱花渐欲迷人眼。笨重的hadoop依旧是主力,以性能著称的Elasticsearch依旧没顾得上SQL,以SQL on Bigdata标榜自己的Presto JDBC驱动缺陷依旧,号称融合了bidata+Elasticsearch+DB的Crate依旧不成熟。我们Presto+Elasticsearch方案原创 2016-01-07 14:03:53 · 6173 阅读 · 0 评论 -
融合了大数据、搜索引擎及SQL的敏捷大数据方案bigdata 3.0:Presto+Elasticsearch
在bigdata 1.0时代,以hadoop为代表的大数据技术在企业数据仓库架构中起到的只是配角作用,只是完成数据批处理,处理好的数据还是放入传统的RDBMS中,由BI完成展示。这称为混合架构。对即时的数据流,提供了kafka+Storm的解决方案。既无法实现BI和bigdata的无缝对接,也无法进行流数据和大数据关联分析。这应该是一种不得已而为之的方案。 当很多用户刚开始对bigdata 1.0有所了解的时候,bigdata 2.0已经迅速到来。bigdata 2.0主要就是实现了SQL on bi原创 2016-02-11 21:08:58 · 10790 阅读 · 1 评论 -
Spark的下一代引擎-Project Tungsten启示录:兼Presto、impala、spark性能根本比较
在过去的一年之中,我们一直在利用Spark做实时交互式分析系统方面的尝试,有兴趣的同学可以看一下我们之前分享的博客《基于Spark的用户分析系统》。我们在不断受到Spark启发的同时,也不得不忍受尚处于青春期的Spark性格中的叛逆。特别是在不断优化系统性能过程中,发现我们实际上是在做与Project Tungsten同样的工作。不知道是该庆幸选对了方向,还是该忧伤重复发明了轮子。尤其是在对比了Project Tungsten与我们自己的实现,心中五味杂陈。不过也正是由于重复发明轮子的过程,也让我们对Pro转载 2016-02-25 13:23:45 · 6010 阅读 · 0 评论 -
Bigdata 3.0:Presto+Elasticsearch研发进展
Bigdata 3.0:Presto+Elasticsearch研发进展原创 2016-03-06 11:20:27 · 3925 阅读 · 3 评论 -
论big data 3.0取代SAP HANA的可行性
论big data 3.0取代SAP HANA的可行性 简言之,big data 3.0就是要实现SQL on big data,而且要兼顾性能、易用性和可扩展性。目前是“搜索引擎+大数据+SQL“这样一个融合为一体的趋势。本人参加过HANA培训,了解过SAP HANA实施项目,目睹了企业所经历的一个个坑,也很不认同SAP惟利是图的商业模式。但HANA的确是个好东西,就易用性来说就需要开源的大数据好好学习。HANA虽好,但太贵,开放性不好,扩展性是个大问题,不适合处理大数据;开源大数据,覆盖了80%HA原创 2016-06-14 14:05:47 · 1674 阅读 · 0 评论 -
基于Calcite Elasticsearch实现的SQL ON ES方案设想
Elasticsearch是搜索的王者,其强大的DSL不让SQL,但缺少SQL的关键特性,如Join。ES的策略是紧紧拥抱Hadoop/Hive,Spark,有个ES-hadoop方案。Hadoop本身就很笨重,这和轻快的ES是背道而驰的。ES的主要方向目前还在搜索上,SQL也不是它的主要关注点。所以,可预见的一段时间内,SQL on ES只能通过开发或集成第三方软件来完成,如通过Presto或Drill的插件来实现。我们已经测试了Presto Elasticsearch Connector。我们认为,基于原创 2016-04-13 10:48:35 · 10616 阅读 · 5 评论