hadoop
文章平均质量分 74
jimmee
这个作者很懒,什么都没留下…
展开
-
hadoop_rpc调用(1)
首先谈谈rpc的实现方式。 就底层实现方式来说,有同步和异步两种方式:[list][*] 1. 同步调用:client发送一次rpc请求到server,在server返回结果之前,在client和server之间建立的connection一直被本次调用hold住,如果有其他的调用想使用此connection发送新的rpc请求,则必须等待。client端接收到serv...原创 2011-10-19 11:57:10 · 99 阅读 · 0 评论 -
mapreduce的一些算法设计,优化等(1)
本系列是根据书籍《Data-Intensive Text Processing with MapReduce.pdf》和工作中的一些mapreduce使用做的笔记:本篇针对《Data-Intensive Text Processing with MapReduce》第三章: 1. local aggregation(局部合并) IN-MAPPER COMBINING,也就是...原创 2014-01-27 17:15:56 · 317 阅读 · 0 评论 -
hadoop的mapreduce的join操作原理
1. 概述如果我们有如下的两个文件:person.txt(字段是id, name,addressId):1 tom 1002 jme 1013 kite 1024 jack 1005 tim 101address.txt(字段是id,name):100 ...原创 2014-01-23 16:23:39 · 539 阅读 · 0 评论 -
hive编写udf处理非utf-8数据
hive默认都是utf-8编码处理数据的,如果原始数据不是utf-8,例如是gbk,我们怎么处理这种数据呢? 方式很简单,我们写udf的时候,继承GenericUDF类就行了。例如: public class CharsetConvertor extends GenericUDF { private transient StringObjectIn...原创 2014-01-23 12:40:12 · 905 阅读 · 0 评论 -
rpc中怎么处理方法的调用的?
1. rpc请求中怎么分发请求方法 方法一: 直接使用反射, 通过方法名, 参数名等反射调用实际使用中的示例, hadoop的实现, 具体可参见 http://jimmee.iteye.com/blog/1206598 例如: org.apache.hadoop.ipc.RPC public Writable call(Class<?> proto...原创 2014-05-23 19:27:35 · 344 阅读 · 0 评论 -
hadoop的mapreduce的一些关键点整理
hadoop的mapreduce的流程图如下: (1)用户提交一个任务以后,该任务由JobTracker协调,先执行Map阶段(图中M1,M2和M3),然后执行Reduce阶段(图中R1和R2)。Map阶段和Reduce阶段动作都受TaskTracker监控,并运行在独立于TaskTracker的Java虚拟机中。 (2)输入和输出都是HDFS上的目录(如上...原创 2014-01-14 23:14:24 · 111 阅读 · 0 评论 -
图解hadoop环境的搭建(5)
图解hadoop环境的搭建,包括:[img]http://dl.iteye.com/upload/attachment/575909/c32626de-a189-3c40-af14-c83b3526444a.png[/img]文档在附件中原创 2011-10-25 11:36:33 · 55 阅读 · 0 评论 -
hadoop_rpc之RPC(4)
有了Client,有了Server,那整个过程怎么运行起来?先说一下基本原理:[list][*]1. 首先客户端和服务器端之间要有一个协议,这里的协议就是以java接口类的方式暴露出来的[*]2. 虽然Client类和Server类之间已经具有通信的能力,也有了协议,那么一个真正的客户端要调用服务器端rpc调用的实现,只需要解决参数及具体的调用实现两个问题即可[*]3. 客户端...原创 2011-10-21 13:35:17 · 84 阅读 · 0 评论 -
hadoop_rpc调用之Server端(3)
Server类是个抽象,只所以抽象,是具有如下抽象方法:[code="java"]public abstract Writable call(Class protocol, Writable param, long receiveTime)throws IOException;[/code]也就是说,服务器端接收到请求后,最后对这个请求的真正处理是通过此方法执行的。又具体的实现类实现这...原创 2011-10-21 11:32:39 · 93 阅读 · 0 评论 -
hadoop_rpc调用之client(2)
主要的几个类说明:[list][*]1. Call,表示一次rpc的调用请求[*]2. Connection,表示一个client与server之间的连接,一个连接一个线程启动[*]3. ConnectionId:连接的标记(包括server地址,协议,其他一些连接的配置项信息)[*]4. ParallelCall:实现并行调用的请求[*]5. ParallelResult...原创 2011-10-19 15:12:26 · 103 阅读 · 0 评论 -
mapreduce的一些算法设计,优化等(2)
1. 反序(order inversion)模式 通过反序模式,我们可以控制中间结果进入reducer的顺序,从而在reducer中先计算出一些结果(根据先进入reducer的中间结果计算出),而这些结果对于高效处理后续的数据很有意义。要使用反序模式,需要先将算法中的操作序问题转化为一般排序问题。 以共现矩阵为例,要计算相对频率问题。 (1)strip...原创 2014-01-28 15:50:34 · 150 阅读 · 0 评论