![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 74
jimmee
这个作者很懒,什么都没留下…
展开
-
hadoop_rpc调用(1)
首先谈谈rpc的实现方式。 就底层实现方式来说,有同步和异步两种方式: [list] [*] 1. 同步调用:client发送一次rpc请求到server,在server返回结果之前,在client和server之间建立的connection一直被本次调用hold住,如果有其他的调用想使用此connection发送新的rpc请求,则必须等待。client端接收到serv...原创 2011-10-19 11:57:10 · 93 阅读 · 0 评论 -
mapreduce的一些算法设计,优化等(1)
本系列是根据书籍《Data-Intensive Text Processing with MapReduce.pdf》和工作中的一些mapreduce使用做的笔记: 本篇针对《Data-Intensive Text Processing with MapReduce》第三章: 1. local aggregation(局部合并) IN-MAPPER COMBINING,也就是...原创 2014-01-27 17:15:56 · 309 阅读 · 0 评论 -
hadoop的mapreduce的join操作原理
1. 概述 如果我们有如下的两个文件: person.txt(字段是id, name,addressId): 1 tom 100 2 jme 101 3 kite 102 4 jack 100 5 tim 101 address.txt(字段是id,name): 100 ...原创 2014-01-23 16:23:39 · 534 阅读 · 0 评论 -
hive编写udf处理非utf-8数据
hive默认都是utf-8编码处理数据的,如果原始数据不是utf-8,例如是gbk,我们怎么处理这种数据呢? 方式很简单,我们写udf的时候,继承GenericUDF类就行了。例如: public class CharsetConvertor extends GenericUDF { private transient StringObjectIn...原创 2014-01-23 12:40:12 · 891 阅读 · 0 评论 -
rpc中怎么处理方法的调用的?
1. rpc请求中怎么分发请求方法 方法一: 直接使用反射, 通过方法名, 参数名等反射调用 实际使用中的示例, hadoop的实现, 具体可参见 http://jimmee.iteye.com/blog/1206598 例如: org.apache.hadoop.ipc.RPC public Writable call(Class<?> proto...原创 2014-05-23 19:27:35 · 339 阅读 · 0 评论 -
hadoop的mapreduce的一些关键点整理
hadoop的mapreduce的流程图如下: (1)用户提交一个任务以后,该任务由JobTracker协调,先执行Map阶段(图中M1,M2和M3),然后执行Reduce阶段(图中R1和R2)。Map阶段和Reduce阶段动作都受TaskTracker监控,并运行在独立于TaskTracker的Java虚拟机中。 (2)输入和输出都是HDFS上的目录(如上...原创 2014-01-14 23:14:24 · 100 阅读 · 0 评论 -
图解hadoop环境的搭建(5)
图解hadoop环境的搭建,包括: [img]http://dl.iteye.com/upload/attachment/575909/c32626de-a189-3c40-af14-c83b3526444a.png[/img] 文档在附件中原创 2011-10-25 11:36:33 · 49 阅读 · 0 评论 -
hadoop_rpc之RPC(4)
有了Client,有了Server,那整个过程怎么运行起来? 先说一下基本原理: [list] [*]1. 首先客户端和服务器端之间要有一个协议,这里的协议就是以java接口类的方式暴露出来的 [*]2. 虽然Client类和Server类之间已经具有通信的能力,也有了协议,那么一个真正的客户端要调用服务器端rpc调用的实现,只需要解决参数及具体的调用实现两个问题即可 [*]3. 客户端...原创 2011-10-21 13:35:17 · 77 阅读 · 0 评论 -
hadoop_rpc调用之Server端(3)
Server类是个抽象,只所以抽象,是具有如下抽象方法: [code="java"]public abstract Writable call(Class protocol, Writable param, long receiveTime) throws IOException;[/code] 也就是说,服务器端接收到请求后,最后对这个请求的真正处理是通过此方法执行的。又具体的实现类实现这...原创 2011-10-21 11:32:39 · 83 阅读 · 0 评论 -
hadoop_rpc调用之client(2)
主要的几个类说明: [list] [*]1. Call,表示一次rpc的调用请求 [*]2. Connection,表示一个client与server之间的连接,一个连接一个线程启动 [*]3. ConnectionId:连接的标记(包括server地址,协议,其他一些连接的配置项信息) [*]4. ParallelCall:实现并行调用的请求 [*]5. ParallelResult...原创 2011-10-19 15:12:26 · 94 阅读 · 0 评论 -
mapreduce的一些算法设计,优化等(2)
1. 反序(order inversion)模式 通过反序模式,我们可以控制中间结果进入reducer的顺序,从而在reducer中先计算出一些结果(根据先进入reducer的中间结果计算出),而这些结果对于高效处理后续的数据很有意义。要使用反序模式,需要先将算法中的操作序问题转化为一般排序问题。 以共现矩阵为例,要计算相对频率问题。 (1)strip...原创 2014-01-28 15:50:34 · 142 阅读 · 0 评论