hadoop
薄荷微光少年梦
这个作者很懒,什么都没留下…
展开
-
MapReduce原理浅析(转)
------------------------每天学习一点点^_^-------------------------- 一个简单的应用了Map/Reduce模式的例子:http://wiki.apache.org/hadoop/WordCount 用 Mapeduce 来处理大数据集的过程, 这个 MapReduce 的计算过程简而言之,就是将大数据转载 2014-05-07 15:42:11 · 574 阅读 · 0 评论 -
Hive优化总结(转)
Hive优化总结 ---by 食人花 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕转载 2014-05-08 13:11:27 · 1083 阅读 · 0 评论 -
CentOS, 快速设置ssh无密码登录
首先,保证可以ping通然后执行如下命令,master登录slavemaster上面执行如下指令:2.4 确认本机sshd的配置文件(root) $ vi/etc/ssh/sshd_config 找到以下内容,并去掉注释符"#"RSAAuthenticationyes PubkeyAuthenticationyes AuthorizedKeys原创 2014-04-28 10:40:31 · 992 阅读 · 0 评论 -
十分钟轻松理解yarn原理
背景Yarn是一个分布式的资源管理系统,用以提高分布式的集群环境下的资源利用率,这些资源包括内存、IO、网络、磁盘等。其产生的原因是为了解决原MapReduce框架的不足。最初MapReduce的committer们还可以周期性的在已有的代码上进行修改,可是随着代码的增加以及原MapReduce框架设计的不足,在原MapReduce框架上进行修改变得越来越困难,所以MapReduce的comm转载 2014-05-22 13:16:21 · 1002 阅读 · 0 评论 -
Yarn的JVM重用功能——uber
1、本文的内容来自我对Yarn的相应功能的理解和实践。而我对该部分功能的理解主要来自对Hadoop的开发者之前相应言论的分析,并且我也将我的分析发给了Hadoop community, 并得到了Yarn的创始人兼架构师Arun Murthy的肯定回复。2、本文中uber的配置部分,主要参考之前Hadoop开发者的言论。但是我当初看该言论的时候对一些细节有所疑惑,因此在本文中我对很多地方做了转载 2014-07-15 13:18:07 · 1971 阅读 · 0 评论 -
Hadoop Capacity Scheduler配置使用记录
这里参考Capacity Scheduler Guide,结合自己的实践经验,对Capacity Scheduler的主要配置参数进行总结。以下标记为红色的部分大都是自己曾踩过坑的地方,希望能给大家带来帮助。mapred.capacity-scheduler.queue..capacity:设置调度器中各个queue的容量,这里指的是占用的集群的slots的百分比,需要注意的是,所有q转载 2014-08-12 10:53:13 · 1357 阅读 · 0 评论 -
KAFKA分布式消息系统
Kafka[1]是linkedin用于日志处理的分布式消息队列,linkedin的日志数据容量大,但对可靠性要求不高,其日志数据主要包括用户行为(登录、浏览、点击、分享、喜欢)以及系统运行日志(CPU、内存、磁盘、网络、系统及进程状态)。 当前很多的消息队列服务提供可靠交付保证,并默认是即时消费(不适合离线)。高可靠交付对linkedin的日志不是必须的,故可通过降低可靠性来提高性能,同时转载 2014-08-13 17:25:11 · 599 阅读 · 0 评论