- 博客(2)
- 收藏
- 关注
原创 Storm滑动窗口实现批量计算
storm是一个流式处理框架,可以做到Spout产生一条数据,Bolt处理一条以达到实时计算。这种模式并不是实际的业务需要的,我们更多是需要 最近5分钟的PV UV ,最近10分钟的网络最大延迟,最近5分钟页面访问TOP10这类问题都可以抽象为:每隔M秒统计最近N秒内的数据,即我们需要一个滑动窗口(固定时间段)来控制数据流量因为storm 未提供api封装,滑动窗口只能自己来实现
2015-03-31 18:38:27 5392
原创 Mapreduce读取OrcFile格式的改造
本文转自我的原创blog: http://www.javali.org/document/mapreduce_read_orcfile_solution.htmlThe Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to
2015-03-24 18:09:05 2028 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人