hadoop
a793408199
这个作者很懒,什么都没留下…
展开
-
hadoop文件系统中文件复本的默认布局
最近一有时间就在补数据结构和学Hadoop上的知识,今天看了一下Hadoop中的HDFS(分布式文件系统)中是怎么将文件写入HDFS中的,在将文件写入HDFS的时候有一件事情也在发生,就是文件复本的写入,这就又要牵扯到一个东西,就是文件复本的布局,今天就来谈谈文件的复本在datanode上是怎么个布局法。 首先来说说文件复本是什么,其实从字面上也就知道了,其实他就是...2014-05-02 11:52:59 · 325 阅读 · 0 评论 -
hadoop源码分析(一)
懵懵懂懂,不知不觉和小伙伴们就搞到了云计算这个东西上来了,在没接触这个之前,心里只是充满了崇敬之情,现在还是充满崇敬之情,不同的想法就是现在大体知道了他是个什么东西,所谓的云计算就是(本人目前的肤浅的理解)“一大堆衣服自己慢慢洗经过很长时间也洗得完,但是把它分给许多人来洗是不是会快很多”云计算也就是这个意思,随着当今信息时代的告诉发展,数据可以说是爆发式的增长,而且数据中...2014-04-20 21:16:04 · 82 阅读 · 0 评论 -
求猛戳进来
hadoop中 一个M/R(job1)同时跑三个目录下的数据(input_1,input_2,input_3) 将他们的结果交由另外一个M/R(Job2)做一些运算 然后的到最后的结果,最后 的结果应该是四个目录,分别为result1,2,3,4 这个具体要使用到什么?? 求指教 ...2014-08-01 15:18:48 · 102 阅读 · 0 评论 -
HDFS 常用的文件操作命令
HDFS 常用的文件操作命令 1.-cat 使用方法:hadoop fs -cat URI 说明:将路径指定的文件输出到屏幕 示例: hadoop fs -cat hdfs://host1:port1/file hadoop fs -cat file:///file3 2.-copyFromLocal 使用方法:hadoop fs -copyF...2014-07-27 12:16:36 · 243 阅读 · 0 评论 -
hadoop中M/R的点点滴滴
简单的m/r我们只要写两个部分,一个是继承Mapper,一个是Reducer,写好里面map函数和reduce函数,系统给我们做了很多其他的工作,一个完整的m/r应该包括下面的所有过程,处理复杂的问题的时候我们往往要将下面的东西重写。按照我们自己的需求来进行,而不是默认的系统的方法: 完整m/r的历程如下所示: ...2014-07-26 21:29:49 · 621 阅读 · 0 评论 -
多个mapreduce工作相互依赖处理方法完整实例(JobControl)
处理复杂的要求的时候,有时一个mapreduce程序时完成不了的,往往需要多个mapreduce程序,这个时候就要牵扯到各个任务之间的依赖关系,所谓依赖就是一个M/R Job 的处理结果是另外的M/R 的输入,以此类推,完成几个mapreduce程序,得到最后的结果,下面将直接贴出一个例子的全部代码,因为为了找一个完整的例子实在是太难了,今天找了半天才把这个问题解决。 ...2014-07-25 16:40:28 · 450 阅读 · 0 评论 -
Permission denied: win7下面eclipse上传本地文件到DFS && 运行M/R程序时出现的同样的错误解决方法...
情景一: 当在win7下面的eclipse装好插件,首次运行M/R程序的时候,想把文件从win7下面的本地文件传到HDFS文件系统上面:(点击Upload files to DFS 或者其他) 会遇到一个提示,如下: 然后点击OK,就可以了,然后你的文件就没有传上去!!! 情景二: 我们即使自己手动在将linux本地的文件传到HDFS中区以后,配置好之后运行,...2014-07-23 17:49:44 · 156 阅读 · 0 评论 -
hadoop常见配置含义
参数 取值 备注 fs.default.name NameNode 的URI。 hdfs://主机名/ dfs.hosts/dfs.hosts.exclude 许可/拒绝DataNode列表。 如有必要,用这个文件控制许可的datanode列...2014-07-23 14:52:26 · 114 阅读 · 0 评论 -
Hadoop实现Secondary Sort (转)
在hadoop中每个reduce的输入的key都是有序的,而value则是无序的。而且同一个job运行多次,由于map完成顺序不同,reduce收到的value顺序是不固定的。那如何才能实现reduce收到有序的value呢?这就需要Secondary Sort。 Secondary Sort要解决的问题:reduce收到的value有序。 这里举一个场景,来说明Secondary Sort...2014-07-21 01:41:41 · 88 阅读 · 0 评论 -
多个MapReduce作业相互依赖时,使用JobControl进行管理
要处理复杂关系的数据,一个工程里面绝对不止一个MapReduce作业,当有多个MapReduce作业时, 并且每个作业之间有依赖关系,所谓的依赖就是一个作业得到的结果是另外一个作业的输入,这个时候我们可 以使用JobControl吊用其中的的addDepending()方法,管理每个MapReduce工作间的依赖关系,具体的 示例如下: ...2014-06-30 23:06:03 · 222 阅读 · 0 评论 -
第一个完整的Map/Reduce小程序
从在自己的win7下面装好虚拟机,然后在虚拟机上面安装hadoop,然后再安装hadoop-eclipse插件,过去好像有一个星期了,之前装虚拟机和hadoop都没成功,上个星期解除了封印,一口气把hadoop学习前期的所有的东西都搞定了,接下来就是遥遥无期的hadoop之路。希望自己能坚持下去。 今天按着别人的思路在win7下面的eclipse里面敲了...2014-06-29 02:19:34 · 291 阅读 · 0 评论 -
Hadoop 解除 "Name node is in safe mode"(转)
运行hadoop程序时,有时候会报以下错误:org.apache.hadoop.dfs.SafeModeException: Cannot delete /user/hadoop/input. Name node is in safe mode这个错误应该还满常见的吧(至少我运行的时候是这样的)那我们来分析下这个错误,从字面上来理解:Name node is in safe mode说明Hado...2014-06-29 00:58:06 · 88 阅读 · 0 评论 -
win7+centos虚拟机hadoop安装eclipse插件运行时报权限错误处理方法
先上错误: 14/06/27 23:37:32 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 14/06/27 23:37:32 ERROR s...2014-06-28 12:18:00 · 160 阅读 · 0 评论 -
hadoop之在集群上跑Pig脚本语言
Step1: 我们要在本地创建一个存放数据的txt文件,我们命名为studentdata.txt里面存放的数据如下: 001:林:59 002:唐:100 003:施:61 004:王:78 005:张:76 006:李:52 Step2: 将本地创建的数据传到namenode下面, 先在我们的/mnt/tmp/下...2014-06-01 01:52:57 · 231 阅读 · 0 评论 -
hadoop之Pig(一)--简介
Pig 是一种探索大规模数据集的脚本语言。MapReducer的一个主要的缺点就是开发的周期太长了。我们要编写mapper和reducer,然后对代码进行编译打出jar包,提交到本地的JVM或者是hadoop的集群上,最后获取结果,这个周期是非常耗时的,即使使用Streaming(它是hadoop的一个工具,用来创建和运行一类特殊的map/reduce作业。所谓的特殊的m...2014-05-31 02:17:41 · 985 阅读 · 0 评论 -
hive常用函数
字符串函数 字符串长度函数:length Java代码 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(‘abcedfg’) from dual; 7 字符串反转函数:reverse Java代码 ...2015-05-28 10:00:28 · 96 阅读 · 0 评论