hadoop
韩王-信
无成有终含章可贞
展开
-
partition 的输出值的总数据和reduce数量不匹配
由于partition中的partition数量和reducer的数量是一致的,getpartition函数中的numpartitions 也是由job设定的reducer值传入。这个值到了partition类中不可以改变,问题是当我定义的getpartiton的值的种类多于(小于的情况是好理解的)reducer的个数时,这样的数据该如何分配到reducer?比如在job设定的reducer的数量原创 2013-08-30 09:00:22 · 1399 阅读 · 0 评论 -
hadoop 集群配置
1、集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。 对于Hadoop的集群来讲,可转载 2013-09-19 22:06:36 · 949 阅读 · 0 评论 -
hadoop 无法启动namenode
在centos下部署了伪分布的hadoop,之前运行一直没有什么问题,但是今天启动突然发现namenode启动不了,jps查看其它的服务都起来了唯独没有namenode的进程,日志如下:2013-09-23 01:18:19,555 INFO org.apache.hadoop.hdfs.server.common.Storage: Start loading image file /usr/原创 2013-09-23 14:40:31 · 2097 阅读 · 0 评论 -
不能向datanode写入数据
向hadoop集群put一个文件的时候,不能往其中的一个datanode写入数据,错误信息:hdfs.DFSClient: Exception in createBlockOutputStream 192.168.1.102:50010 java.io.IOException: Bad connect ack with firstBadLink as 192.168.1.108:50010原创 2013-09-25 22:45:34 · 1132 阅读 · 0 评论 -
hive 加载数据后在HDFS上的文件及其整合
.建一个表,没有任何数据,在hdfs 上也没有对应的数据文件hive> select * from product;OKid nameTime taken: 0.104 secondshive> dfs -ls /user/hive/warehouse/psi.db/product;hive>从本地加载一个文件到该表:hive> l原创 2013-09-05 14:45:26 · 4973 阅读 · 0 评论 -
streaming mr
在以前的一篇关于python版MR实例的文章中,只是简单走了一下流程,这次主要是解决上次遗留的key,partition,sort的问题。以进一步理解hadoop streaming,也尝试mapper使用python而reducer使用bash的结合方式1. 省略本地测试这个环节,可参考以前的那篇文章,HDFS上的测试数据位:[root@hadoop Desktop]# hadoop原创 2013-11-20 08:52:21 · 1024 阅读 · 0 评论 -
python MR 中reduce迭代
在java版本中,maprduce框架会自动把相同的key的value值传给reduce函数进行迭代,但是在stream中,MR框架虽然也对key进行排序,但是并不能够把相同key的value传给reduce函数进行迭代,必须用代码进行控制这样的迭代,这在对数据进行分段sum,account,average等汇总计算的时候是必须的,以python为例:原始数据:line product g原创 2013-11-20 08:51:33 · 1412 阅读 · 0 评论 -
MR python joiner
继承http://blog.csdn.net/weihongrao/article/details/16826763 把上次得出的数据在和group维度表进行关联得到group名称mapper:joinm#!/usr/bin/pythonimport sysclass mapper: def map(self): for line in原创 2013-11-20 16:40:58 · 964 阅读 · 0 评论 -
公平调度和容量调度的区别
公平调度是以pool为单位分配任务slots的,容量调度以queue的方式分配tasktracker的,当都只有一个job的时候,两种调度器都可以利用整个集群的资源,在每个pool内部可以是以FIFO方式调度也可以是公平方式调度,但是在queue内部只能是以FIFO方式调度,这是公平调度和容量调度的一个区别,虽然在queue内部可以设置优先级但是并不支持抢占,在pool内部是支持抢占的,就是可以为原创 2013-12-18 09:05:18 · 4192 阅读 · 0 评论 -
How to chain multiple MapReduce jobs in Hadoop
When running MapReduce jobs it is possible to have several MapReduce steps with overall job scenarios means the last reduce output will be used as input for the next map job.Map1 -> Reduce1 -> Map2转载 2013-12-19 16:10:53 · 1268 阅读 · 0 评论 -
hadoop增加和删除节点
添加节点1.修改host 和普通的datanode一样。添加namenode的ip 2.修改namenode的配置文件conf/slaves 添加新增节点的ip或host 3.在新节点的机器上,启动服务 [root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode[root@slave转载 2013-12-25 11:16:32 · 582 阅读 · 0 评论 -
mapreduce 压缩
Hadoop 可以在作业的Configuration对象中通过设定一系列参数来改变作业的行为,比如,我们需要进行一个map-reduce作业,并且吧最终作业reduce过程的结果输出为压缩的格式,我们可以在一般的map-reduce上进行一些定制。 实现还是以以前做的删选最高气温的例子为参照:以前的例子可以见这个博文:http://supercharles888.blog.51ct转载 2013-09-13 15:50:36 · 724 阅读 · 0 评论 -
python 实现MR
1. 看下本地的测试数据:[root@hadoop Desktop]# cat tour.txtair:23;hotel:34;nation:CHINAair:35;hotel:46;nation:USAair:36;hotel:47;nation:USAair:26;hotel:37;nation:CHINAair:33;hotel:44;nation:USAair:原创 2013-09-03 17:25:39 · 1899 阅读 · 0 评论 -
MR方式简析
假设有以下两个文件,每行总有4个字段,分别代表着产品,出发地,目的地,成本product from to costfile1:air china ala 200air ala china 400air usa ca 700air ca usa 800train beijing guangzhou 400train beijing shenzhen 900原创 2013-08-30 09:00:26 · 932 阅读 · 0 评论 -
MR ADT 实例
1. 虚拟这样一个数据场景FRESHDATE:201306;REPORTNAME:Cagpmini Global;RESULT:fail;ERRORTYPE:lost DB connectionFRESHDATE:201306;REPORTNAME:Cagpmini Global;RESULT:fail;ERRORTYPE:lost DB connectionFRESHDATE:201原创 2013-08-30 09:00:27 · 696 阅读 · 0 评论 -
mapreduce 分片大小的计算
计算方式:max(mininumsize,min(maxnumsize,blocksize))通常境况下,mininumsize所以一般是将一个block的数据交给一个mapper,即是一个block作为一个数据分片如果希望将所有的文件都在一个mapper中处理可以将mininumsize设置为文件的大小,这样其实会让hadoop框架失去去并行处理的优势原创 2013-08-30 09:00:40 · 2069 阅读 · 0 评论 -
hadoop远程客户端安装配置
hadoop远程客户端安装配置客户端系统:ubuntu12.04客户端用户名:mjiang服务器用户名:hadoop下载hadoop安装包,保证和服务器版本一致(或直接copy服务器的hadoop安装包) 到 http://mirror.bjtu.edu.cn/apache/hadoop/common/ 下载tar.gz安装包,解压。tar zxvf h转载 2013-08-30 09:00:58 · 8087 阅读 · 0 评论 -
cygwin +hadoop配置问题简要汇总
1. 在cygwin中无法配置面密码登录,运行ssh-host-config 提示找不到命令,在win7中只得重装cygwin,重新选择sshd2.在cygwin中安装java问题, 解决方法在另一边日志有提及,主要是引用本机的java而不是在cygwin中安装linux版的java3. 端口占用, 启动namenode提示端口占用在win下运行netstat-an 后原创 2013-08-30 09:01:05 · 827 阅读 · 0 评论 -
hadoop 检索文件
[leo@hadoop ~]$ hadoop fs -lsr / |grep ts语法:hadoop fs -lsr / | awk/sed/grep .....原创 2013-08-31 17:01:22 · 1615 阅读 · 0 评论 -
hadoop 挺好的参考文档笔记
http://www.r66r.net/?p=1072转载 2013-09-01 14:05:11 · 578 阅读 · 0 评论 -
map和reduce的泛型类
map和reduce 泛型约定了输入输入的类型,如mapper约定了分别代表了输入key的类型,输入value类型,输出key类型,输出value类型,所以在context.write()的时候就必须是(inwriteable,text)reduce 同理原创 2013-09-01 14:06:23 · 1344 阅读 · 0 评论 -
hadoop报 No route to host
这是由于我在工作环境中频繁使用VPN 然而在hosts 文件中固化了ip ,导致在本机的ip更改了之后没有更新hosts 里面的IP 导致了没有办法识别虚拟机中的namenode,将hosts的IP更新,此问题化解原创 2013-09-02 09:33:10 · 1492 阅读 · 0 评论 -
Bash 实现MR
继承上一篇: "Python 实现MR", 此文将采用bash实现MR, 测试数据和执行方式完全一样,这里指给出mapper和reducer的bash版本1. mapper[root@hadoop ~]# cat mapper.sh#!/bin/bashwhile read linedoair=$(echo ${line}|cut -d';' -f1)airnam原创 2013-09-04 09:19:03 · 853 阅读 · 0 评论 -
Hadoop 新 MapReduce 框架 Yarn 详解
Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 MapRe转载 2014-01-09 14:45:59 · 718 阅读 · 0 评论