大数据时代分析工具的演变

原创 2015年12月02日 12:17:33

大数据时代分析工具的演变

 

         大数据如今已经不再是什么新的名词,五中全会大数据上升为国家战略,BAT巨头早已布局多年,大数据时代已经真正来临,但我们真的准备好了么?

         大家都知道大数据中蕴含大量的数据价值,比如说淘宝与天猫的用户消费行为、滴滴打车可以知道用户每天去了哪里、用户在优酷上都看了那些视频、移动运营商的海量客户终端信息以及上网行为等、大型零售商每天的销售数据,订餐网上用户每天吃了什么,等等大数据金矿无处不在。但淘出来的才是金子,否则只是一堆土而已,即占用场地,还要花钱去保管和维护这堆土。

         大数据时代金矿已经有了,如何利用好这个金矿,某种意义上取决于我们手上的工具。熟话说“没有那金刚钻,就别揽瓷器活”,工具是否适用,直接决定着我们能否进行挖金,以及挖金的速度与效率。适合用铁锹还是挖掘机,对挖金来说有着质的不同。

第一个金刚钻Hadoop

         Hadoop是大数据时代的第一个金刚钻。笔者从08年开始研究hadoop源码,当时中文资料还是比较少的,国内除了BAT外其他公司用的也很少,初次接触hadoop是因为被当时公司的流量系统所困扰,当时公司网站的流量已经达到了每天接近一个亿的水平,最初选择了postgresql来计算数据,但是普通机器根本无法计算,无奈之下我们花大价钱买了128G内存(在当时是很奢侈的)的服务器,运行在postgresql的内存表里才勉勉强强的计算出来。直到有一天遇到了hadoop,你懂的,一个HiveSql在几台普通硬件的机器上,一亿数据几个小时就出结果了。

         如今Hadoop已经不再神秘,相关书籍越来越多。但是伴随着互联网技术的日新月异,Hadoop已经不能满足用户了。数据时效性差,以及查询的响应效率低,那些对时效性要求较高的用户场景无法满足。Hadoo目前面临两两方面的挑战,第一,数据从产生到能够最终出结果要等待数小时,时效性较差。第二,多个Job任务,相互之间争抢资源,而且由于采用暴力扫描原始数据的方式,对机器资源的消耗太大,每天能够跑的计算任务个数十分有限。

第二个利器阿里JStorm

         JStorm的出现主要是因为Hadoop满足不了支付宝成交实时分析的需求。阿里的双十一活动以及其他活动都有对阿里网站成交流量实时展示的需求,通过运营活动,来了解开始的几分钟或者几秒钟内,实时流入了多少的流量,带来多大的成交。正巧当时Apache Storm正式开源,阿里团队认为Storm正适合阿里的业务,但是Storm的核心逻辑采用Clojure编写,熟悉这门语言的太少,另外业务需要定制化的逻辑,故阿里团队花费3个多月的时间阅读Storm的源码,并将其Clojure部分更换为Java代码。笔者曾是团队的一员,有幸成为其committer,离开阿里后,团队其他兄弟将其开源,贡献了出去,如今Jstorm已经被Apache接受,正式成为Storm项目的子项目。

         Storm能够满足企业对数据时效性的要求,但跟现有的其他大数据的实时系统一样,都是采用预计算的方式。因流式系统不保存原始日志,数据只能安装固定的维度和粒度进行计算与汇总,例如只能按照淘宝的类目、分钟等维度汇总统计。众所周知,运营情况是千遍万化的,很多都是突发事件,维度并不能预先固定,很多事物也需要多方面展示,要经过数次的不同角度、不同粒度的钻取,来发现运营活动的规律。基于这种场景,我们需要保留原始日志,同时需要非常快速的对这些原始日志进行快分析与计算。这样高需求的场景,数据工具既要有hadoop+hive计算的灵活性,又要有Jstorm的时效性和速度。Storm就显出了它的不足。

 

新生代数据挖掘机延云YDB

    YDB是延云针对用户对大数据检索快速、实时、多维度的需求而开发的分析软件,可以说是笔者的心头好。

YDB将传统数据库索引技术应用在大数据技术上,打破目前大数据计算技术的僵局。将大数据检索向时效性更强,查询方式更灵活,执行效率更高的方向演进。虽然引用传统索引技术,但是对硬件的需求并不比hadoop高,不会让小型用户望而却步。技术上YDB采用Java语言编写,接地气,Sql接口用户也更易于上手使用,同时每天千亿增量万亿总量的数据量也能满足高端用户的需求。YDB主要技术方向在大索引,大索引的好处在于加快了检索的速度,减少查询中的分组、统计和排序时间,提高系统的性能和响应时间来节约资源。大索引技术的运用才能使YDB在如此大规模的数据量下依然保持查询响应时间在几秒,数据导入延迟在几分钟。

 

    大数据时代拼的不仅仅是数据量有多大,还要拼速度,拼谁的更快、更准、成本更低。大数据的运用领域还在不断的扩张,大索引技术还有很长的路要走。终有一天大数据会带给我们震撼世界的影响。

 

 

 

 


大数据时代分析工具的演变

大数据时代分析工具的演变            大数据如今已经不再是什么新的名词,五中全会大数据上升为国家战略,BAT巨头早已布局多年,大数据时代已经真正来临,但我们真的准备好了么?      ...
  • muyannian
  • muyannian
  • 2015年12月02日 12:17
  • 1288

大众点评数据平台架构变迁

最近和其他公司的同学对数据平台的发展题做了一些沟通,发现各自遇到的问题都类似,架构的变迁也有一定的相似性。 以下从数据&架构&应用的角度对2012.07-2014.12期间大众点评数据平台的架构变迁...
  • czp11210
  • czp11210
  • 2016年06月12日 09:27
  • 1478

《大数据时代》书评及书摘

三天的零碎时间把这本书读完了,内容本身其实很简单,也谈不上特别精彩,五分制的话我只能打三分。我的理解,数据一生应该是包含了三个阶段:收集,分析,最后是预测。我们总能根据现有的数据(或者经验)预测未来(...
  • pan_tian
  • pan_tian
  • 2013年09月28日 23:28
  • 5861

大数据时代的变革与顺势而为——读《大数据时代》

欢迎大家关注我的微信公众号,微信搜索“东冬咚”或者“haidongzhisheng”,更多精彩内容尽请期待! 今天,大数据是目前炒得比较火的一个话题。今天给大家介绍一部书,《大数据时代》,浙江出版社...
  • dongdong9223
  • dongdong9223
  • 2016年08月19日 18:28
  • 1808

客户端软件升级方式的变迁

直到Windows 8 之前,微软都没有像苹果的一样提供一个AppStore,所以在这个平台上开发和使用软件都是有一定门槛的:对于普通用户而言,专门跑去电子市场买一套办公或者娱乐软件的光盘并不是所有人...
  • andylau00j
  • andylau00j
  • 2014年05月21日 14:04
  • 1299

通达信 股本变迁 gbbq 数据解码程序(20110722)

  • 2011年07月22日 08:55
  • 27KB
  • 下载

大数据时代必不可少的大数据分析和制作工具大全

大数据分析工具
  • sbdx
  • sbdx
  • 2017年02月10日 17:24
  • 1503

《大数据时代(BIG DATA)》

—-豆瓣链接—- 大数据的时代思维变革 不是随机样本,而是全体数据 小数据时代的随机采样,最少的数据获得最多的信息 采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加...
  • my_precious
  • my_precious
  • 2016年10月12日 09:56
  • 1369

计算工具的演化经历

计算工具的演化经历了由简单到复杂、从低级到高级的不同阶段,例 ENIAC计算机[1] 如从“结绳记事”中的绳结到算筹、算盘计算尺、机械计算机等。它们在不同的历史时期发挥了各自的历史作用,同时也启发...
  • u013820500
  • u013820500
  • 2014年02月28日 14:35
  • 542

数据库数据变化监控软件(自制)

  • 2013年12月17日 15:38
  • 2.89MB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:大数据时代分析工具的演变
举报原因:
原因补充:

(最多只允许输入30个字)