hadoop
文章平均质量分 82
sawen21
这个作者很懒,什么都没留下…
展开
-
Storm滑动窗口实现批量计算
storm是一个流式处理框架,可以做到Spout产生一条数据,Bolt处理一条以达到实时计算。这种模式并不是实际的业务需要的,我们更多是需要 最近5分钟的PV UV ,最近10分钟的网络最大延迟,最近5分钟页面访问TOP10这类问题都可以抽象为:每隔M秒统计最近N秒内的数据,即我们需要一个滑动窗口(固定时间段)来控制数据流量因为storm 未提供api封装,滑动窗口只能自己来实现原创 2015-03-31 18:38:27 · 5395 阅读 · 0 评论 -
Mapreduce读取OrcFile格式的改造
本文转自我的原创blog: http://www.javali.org/document/mapreduce_read_orcfile_solution.htmlThe Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to原创 2015-03-24 18:09:05 · 2030 阅读 · 1 评论 -
Hadoop2安装运行问题汇总
本文转自我的原创blog: http://www.javali.org/document/hadoop2_related_problems_summary.htmlhadoop版本:cdh4.7.0操作系统: centos6 64bitCDH3安装文档请跳至:hadoop1分布式集群搭建1,hiveserver2 可以用localhost链接,但无法用原创 2015-04-22 16:35:19 · 551 阅读 · 0 评论 -
hadoop处理小文件问题
本文转自个人原创blog: http://www.javali.org/document/hadoop-handle-numerous-small-files.htmlHadoop带来了廉价的处理大数据的能力,可以这么理解,hadoop是为了解决大数据(大文件)计算而出现的分布式计算框架,不过对于小文件(指远小于block size,默认64M)却会存在各种问题,比如:过多的消原创 2015-04-22 16:45:44 · 634 阅读 · 0 评论 -
利用CombineFileInputFormat处理小文件
在之前的文章里hadoop处理小文件问题 使用hadoop archive files来解决海量小文件引起的资源及性能问题。该方案需人工进行维护,适用管理人员的操作,而且har文件一旦创建,Archives便不可改变,所以适合一次性写入大量小文件的场景。hadoop自带的还有另一种解决方案:CombineFileInputFormatCombineFileInputFormat是一原创 2015-04-22 16:35:00 · 1161 阅读 · 0 评论