随笔

最新推荐文章于 2018-10-10 10:51:13 发布

jingling_zy

最新推荐文章于 2018-10-10 10:51:13 发布

阅读量1.2k

点赞数

分类专栏： hadoop hbase 文章标签： cassandra node.js hbase mongodb redis join

本文链接：https://blog.csdn.net/jingling_zy/article/details/7296525

版权

hbase 同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

hadoop

11 篇文章 0 订阅

订阅专栏

昨天很有幸参加了淘宝的技术沙龙，在交流会上，认识了很多技术牛人，所见所闻都让人热血沸腾……

首先听到的是AdMaster公司的@爱的马斯特的有关流式计算的分享，之前对流式计算也稍稍了解了一些，但是了解不多，在这里我了解到他们使用storm实现了日志分析、ETL的功能，用Redis来做多个数据集的关联计算、join计算，实现了cookie，使用hbase做存储，离线分析使用MongoDB（这个主要是因为MongoDB的读比写性能好的多）。最后@爱的马斯特也给我们提出了很宝贵的建议：

（1）做一个Map reduce的个数动态分配；

（2）Redis数据结构设计要节省内存；

（3）Storm处理太快，后面的存储性能跟不上，可以使用内存文件系统（如：RamFS）

（4）建议使用Storm0.7.0以后的版本，比较稳定；

（5）hive使用map reduce，瓶颈在join上；

（6）建议做分析，优先考虑pig，pig的分析功能很强大。

呵呵，由于我在这段时间遇到一个关于存储压缩的问题，所以我重点关注了一下AdMaster的压缩，他们使用了lzo压缩，原因是lzo的压缩比其他的压缩方法的查询性能高一些，并且他们还写了一个用于压缩的公平调度器，呵呵，标榜目前只有他们做了这个东西，看来值得研究啊！

接下来是淘宝的@我是aleafs介绍异构数据源整合，主要介绍了一下他们团队开发的产品ITier，目前已开源，地址：https://github.com/xianbei/itier。感觉这个产品的功能很强大啊！主要的技术是Node.js，目前支持SQL，数据都是以二维表存储的（这个不是很理解，为什么要采用二维表，可能是出于计算效率的考虑吧！），并且join都是在内存中做的。这里值得一提的是，Node.js是异步IO，并且是单线程的，其中对象的join开销大，他们对这一块进行了优化，呵呵，真是牛人啊！所以他们现在产品模式是Master+worker（Node.js）

最后是MediaV的一位大师介绍了一下聚合分析实时数据处理，他们的NoSQL使用场景主要有：MongoDB用在报表引擎中；实时分析采用cassandra，主要是考虑cassandra的写比读的性能好，并且他们的场景中写较多。呵呵，他们也做了hbase和cassandra的读写性能测试，发现hbase的读比写性能高，这也就说明hbase适用于读多写少的场景。

呵呵，参加了这次交流，收获还是颇多的，也许是知识的漏洞很多，很多东西听了还不是很理解，在云计算和流式计算这块，我就是一个刚刚起步的菜鸟，学习方法还不是很有效，欢迎大家交流，我的邮箱：jingling_zhuang@163.com

jingling_zy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
随笔

昨天很有幸参加了淘宝的技术沙龙，在交流会上，认识了很多技术牛人，所见所闻都让人热血沸腾……首先听到的是AdMaster公司的@爱的马斯特的有关流式计算的分享，之前对流式计算也稍稍了解了一些，但是了解不多，在这里我了解到他们使用storm实现了日志分析、ETL的功能，用Redis来做多个数据集的关联计算、join计算，实现了cookie，使用hbase做存储，离线分析使用MongoDB（这个主要
复制链接

扫一扫

专栏目录