hadoop mapred
文章平均质量分 91
G7N3F
呆
展开
-
kerberos学习
规划服务端一般是一台机器 这里是cdh3-配置文件 krb5.conf-kdc.conf-kadm5.acl匹配这个规则的账户有所有权限 ,下文为账户格式解释:instance 一般是主机名hostname,admin/admin@ITCAST.CN 是特殊的管理员 所以是admin不是hostname-创建针对relam的database创建db后得到这4个文件-登入后台 ,在...原创 2022-03-22 23:11:18 · 2714 阅读 · 0 评论 -
普通表的Join 三种算法(join 一) 嵌套循环Join(Nested Loops Join)、排序合并Join(Sort-Merge Join)和哈希Join(Hash Join)
refer to http://mysun.iteye.com/blog/1748473通过Map-Reduce实现Join系列之一本系列的开篇在提到使用Map-Reduce实现Join之前,先来看看目前在数据库中应用比较广泛和流行的集中Join算法。它们分别是嵌套循环Join(Nested Loops Join)、排序合并Join(Sort-Merge Join)和哈希Join(转载 2016-01-18 16:58:32 · 4819 阅读 · 1 评论 -
hadoop 处理小文件 方式TBD
1.如果hdfs系统里都是小文件,每个mapper 平均只会处理极端的时间,那么这显然调度那么多map去处理如此小文件 是一种浪费,这时可以采用CombineFileInputFormat,一个map读取多个小文件2. 设置离线的merge 任务,或者前置,或者 如odps red后,会判断输出文件的大小数量,如果满足条件则启动merge任务,将小文件合并起来, (常用的文件格式 RCFILE原创 2016-01-27 17:13:07 · 591 阅读 · 0 评论 -
浅谈hadoop map过程,以及一些调优
每次map 将key val 写到一个writebuff wb中,wb里有个spill值(就是个wb 的空间比例),每当达到spill值, 就会输出这段spill(default 100m),输出前会将spill的内容在内存中按 partition groupby,且 sort by key。eg:当spill 输出时,会按照对多个已排序文件 做多路并归 merge说下merg原创 2016-01-20 17:49:32 · 1438 阅读 · 0 评论 -
hadoop1 rpc
refer to http://blog.csdn.net/historyasamirror/article/details/6159248上篇说了半天,却回避了一个重要的问题:为什么要用异步呢,它有什么样的好处?坦率的说,我对这点的认识不是太深刻(套句俗语,只可意会,不可言传)。还是举个例子吧:比如Client向Server发送一个request,Server收到后需要100转载 2016-02-02 16:33:10 · 521 阅读 · 0 评论 -
Map-Reduce实现Join 算法(mapreduce侧连接 maponly 连接 map bloomfilter reduce连接) (join二)
refer to http://mysun.iteye.com/blog/1748480参考以下文章,谈谈如果我自己设计的mapred join 和 maponly join1.首先mapred join ,map的产物是 key,val (key就是join on的条件eg t1.id = t2.id),val中包含tag即来自哪个文件or表源 和 实际行中的内容 注:这原创 2016-01-19 17:30:05 · 1576 阅读 · 0 评论