hadoop|hive
文章平均质量分 74
soldier_programmer
这个作者很懒,什么都没留下…
展开
-
linux集群批量管理工具parallel-ssh(pssh)的安装与使用
使用pssh的动力源自实验室的测试项目,需要搭建一个200余台机器的集群,前期是32台机器的小集群,hadoop软件列表中的第一个。 起初我自认为装个hadoop集群,改改配置文件,重复32次就完事儿了,工作量也不是很大。 但随机测试的推移,我发现,每当需要更改一个参数需要把一个操作重复执行几十次是多么另人崩溃的一件事儿。 pssh这种神器真是管理集群必备!! 下面是pssh的安装原创 2013-08-08 23:49:14 · 1998 阅读 · 1 评论 -
Muppet: MapReduce-Style Processing of Fast Data笔记
文中提出一个类MapReduce框架MapUpdate,根据这个计算框架实现了Muppet系统,文中分别介绍了1.0和改进版本2.0。 1. Motivation “fast data”(文中使用,从其例子中看,实质上与流数据基本等同)的处理需求与日俱增,如传感器数据、股票数据和社交媒体数据等,MapReduce框架不适合做实时的数据处理。 文中在列举了多个应用场景,包括Foursquare原创 2013-03-05 00:00:27 · 1209 阅读 · 2 评论