自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

海盗的小菜园

专注云计算、大数据运维领域

  • 博客(7)
  • 资源 (11)
  • 收藏
  • 关注

原创 Hive基本使用

4、查看表文件 HDFS载入的时候,实际做的是文件移动 hive (dcenter)> dfs -ls /hive/warehouse/dcenter.db/t; Found 1 items -rw-r--r-- 2 hc supergroup 317777760 2013-12-26 11:28 /hive/warehouse/dcenter.db/t/a.txt

2013-12-26 11:54:32 3223

原创 Hadoop MapReduce之Join示例

Hadoop MapReduce之Join示例 关于MR中的数据连接是在数据处理中经常遇到的问题,可以用一些上层框架来实现此功能,比如Hive、Pig等,这里用MR实现主要是为了理解连接的思路,MR中的连接可以在Reduce端做,也可以在Map端做,本例在Reduce端做,想了解更多连接的内容可以参考>5.2章节,需要连接的表数据如下 用户订单表: UserID OrderID

2013-12-10 11:20:31 1770

原创 Hadoop JobTracker之ExpireLaunchingTasks

ExpireLaunchingTasks为JobTracker的后台线程,该线程记录了task的启动时间,每当TaskTracker发送心跳时,JobTracker会分配合适的任务给TaskTracker,并且将TaskAttemptID和启动时间以键值对的形式记录到launchingTasks集合中,待下次心跳如果JT得知该任务启动成功,则会从launchingTasks集合中删除,否则记录失败

2013-12-07 15:45:18 970

原创 Hadoop MapReduce之ReduceTask任务执行(六)

前面我们分别讨论了reduce的三个阶段,copy、sort、reduce,都是分开解析的,其实这些功能都包含在一个函数中,而且阶段分明,通过下面的分析,会对reduce流程理解会更清晰。下面函数的入口是Child.main -> taskFinal.run(job, umbilical) public void run(JobConf job, final TaskUmbilicalProto

2013-12-05 15:46:17 1001

原创 Hadoop MapReduce之ReduceTask任务执行(五)

本节分析ReduceTask的最后一个阶段:reduce,经历了copy、sort后,reduce的输入数据就准备好了,reduce数据输入由Reducer.Context提供,该Context封装了sort阶段的迭代器,可以对内存和磁盘的KV进行迭代,这部分需要注意两个大的循环:1、对KEY的循环由Reducer类实现,具体参考run函数 2、在自定义的reduce函数中对VALUE的循环。在自

2013-12-05 15:30:43 1980

原创 Hadoop MapReduce之ReduceTask任务执行(四)

上一篇讲了reduce如何把map输出下载到本地的过程,这个过程中包含了文件合并操作,本文主要讲reduce的下一个阶段:排序。reduce端的合并单位是Segment,在对Segment合并的过程中就已经实现排序了,大家如果对Oracle比较熟悉的话,这种合并排序的方式就容易理解了,对于两个排序好的数组,每次取其中的最小值,那么结果就是一个大的有序数组,这就是merge的基本原理,当然在Hado

2013-12-04 14:29:20 1166

原创 Hadoop MapReduce之ReduceTask任务执行(三)

在reduce端的文件拷贝阶段,会将数据放入内存或直接放入磁盘中,如果文件全部拷贝完再进行合并那样必然降低作业效率,所以在拷贝进行到一定阶段,数据的合并就开始了,负责该工作的有两个线程:InMemFSMergeThread和LocalFSMerger,分别针对内存和磁盘Segment的合并。 首先看内存合并线程InMemFSMergeThread的run函数 public void run

2013-12-02 14:23:49 1327

winutils.exe

windows下安装hadoop经常碰到的问题 2014-03-15 15:36:16,749 ERROR util.Shell (Shell.java:getWinUtilsPath(336)) - Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executable F:\hadoop-2.3.0\bin\winutils.exe in the Hadoop binaries. at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:318) at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:333) at org.apache.hadoop.util.Shell.<clinit>(Shell.java:326) at org.apache.hadoop.util.StringUtils.<clinit>(StringUtils.java:76) at org.apache.hadoop.conf.Configuration.getTrimmedStrings(Configuration.java:1708) at org.apache.hadoop.conf.Configuration.getInts(Configuration.java:1095) at org.apache.hadoop.ipc.metrics.RpcMetrics.<init>(RpcMetrics.java:54) at org.apache.hadoop.ipc.metrics.RpcMetrics.create(RpcMetrics.java:80) at org.apache.hadoop.ipc.Server.<init>(Server.java:2114) at org.apache.hadoop.ipc.RPC$Server.<init>(RPC.java:897) at org.apache.hadoop.ipc.WritableRpcEngine$Server.<init>(WritableRpcEngine.java:372) at org.apache.hadoop.ipc.WritableRpcEngine.getServer(WritableRpcEngine.java:294) at org.apache.hadoop.ipc.RPC$Builder.build(RPC.java:742) at test.RPCServer.main(RPCServer.java:24) 将这个文件拷贝到HADOOP_HOME/bin目录下就可以了

2014-03-15

nc110.tgz瑞士军刀

瑞士军刀,居家必备、shell反弹、功能强大

2014-01-17

hadoop Join代码(map join 和reduce join)

展示使用MR方式实现表连接的代码示例。利用HIVE PIG之类的高层工具也可以实现,本代码旨在展示手工连接的流程

2013-12-10

mapreduce 自定义分隔符源码

自定义分隔符读取源码,改编自LineRecordReader,主要处理格式复杂的日志

2013-11-12

fsimage初始结构

FSIMAGE初始化文件结构,附带源码位置

2013-08-17

安装64 位Oracle 11gR2.pdf

在ORACLE ENTERPRISE LINUX 6上安装ORACLE 11G R2的文档,已经成功安装。

2012-06-01

LVM之快照及PV迁移

LVM之快照及PV迁移详细操作,,...................

2012-05-28

MCDBA认证教材.chm

官方认证教材哦,介绍的很详细,适合想考证的朋友们, 。。。。。。。。。。。

2011-02-28

linux多线程编程

不错的多线程入门资料,例子浅显易懂,重要函数都有详细解释, 另外如果阅读mysql源码,没有多线程的知识很难读懂, 希望本书能给你带来知识上的收获。

2011-02-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除