Hadoop
文章平均质量分 73
小鸟123
技术爱好者,技术改变生活
展开
-
hadoop编程实例
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html从网上搜到的一篇hadoop的编程实例,对于初学者真是帮助太大了,看过以后对MapReduce编程基本有了大概的了解。看了以后受益匪浅啊,赶紧保存起来。 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义转载 2015-04-13 18:45:55 · 819 阅读 · 0 评论 -
hadoop源码分析环境搭建(win7+cygwin+jdk+ant+eclipse+Hadoop-1.0.0)
jdkanteclipsehadoop-1.0.0这些需要安装或者下载ant下载后将文件夹放在hadoop-1.0.0里面执行ant eclipse当出现E:\Hadoop\hadoop-1.0.0\build.xml:2294: E:\Hadoop\hadoop-1.0.0\.eclipse.templates is not a directory.时,手动创原创 2016-03-06 11:57:03 · 844 阅读 · 1 评论 -
map任务数量控制
mapred-site.xml mapred.min.split.size 94371840hdfs-site.xml dfs.block.size 67108864直接配置mapred.job.maps好像不是很管用。首先通过dfs.block.size设置原创 2016-06-25 14:15:27 · 566 阅读 · 0 评论 -
Hadoop集群搭建
一. 搭建环境前的准备:我的本机Ubuntu 12.04 32bit作为maser,就是上篇hadoop单机版环境搭建时用的那台机子,还在KVM中虚拟了4台机子,分别起名为:son-1 (ubuntu 12.04 32bit),son-2 (ubuntu 12.04 32bit),son-3 (centOS 6转载 2015-06-23 20:10:19 · 555 阅读 · 0 评论 -
验证自身水平的hadoop面试题
1 使用Hive或者自定义MR实现如下逻辑product_no lac_id moment start_time user_id county_id staytime city_id13429100031 22554 8 2013-03-11 08:55:19.151754088 571 571转载 2016-05-03 21:52:08 · 380 阅读 · 0 评论 -
Hadoop中的YARN
Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。MRv1 的缺陷 MapReduce 的第一个版本既有优点也有缺点。MRv1 是目前使用的原创 2016-03-08 15:25:19 · 647 阅读 · 0 评论 -
hadoop 集群 加入一个新的存储节点和删除一个计算节点需要刷新集群状态命令
方式1:静态添加datanode,停止namenode方式1.停止namenode 2.修改slaves文件,并更新到各个节点3.启动namenode 4.执行hadoop balance命令。(此项为balance集群使用,如果只是添加节点,则此步骤不需要) -- 方式2:动态添加datanode,不停namenode方式 1.原创 2016-03-07 21:06:57 · 5041 阅读 · 0 评论 -
hadoop细节积累
1、hadoop可以运行在3种模式下:单机模式,不存在守护进程,所有的东西都运行在一个jvm上,也没有分布式存储系统,使用的是本地文件系统伪分布式,所有守护进程都运行在同一台机器上完全分布式,hadoop守护进程运行在每台机器上2、hadoop的集群是基于master/slave模式,namenode和jobtracker属于master,datanode和tasktracker属原创 2016-03-07 20:36:33 · 338 阅读 · 0 评论 -
linux环境下jdk和编译器版本不一致问题
当我们在linux系统下键入java -version和javac -version如果jdk的版本低于编译器的版本,正如我的电脑java -version出现的是1.6,而javac -version出现的是1.7这个问题如果我们确定已经安装了1.7版本的jdk的话,那就是环境变量配置配置的问题我现在的环境变量如下JAVA_HOME=/usr/lib/jvm/java-7-o原创 2015-06-20 10:34:12 · 847 阅读 · 0 评论 -
Pig安装测试和出现的问题
Pig的安装和配置过程1、从http://pig.apache.org/下载Pig安装包,我下载的是Pig-0.14.02、使用tar -zxvf pig-0.14.0.tar.gz解压到适当的位置,这里推荐放在hadoop的目录下3、接下来需要做的就是配置了,我是在/etc/profile中进行配置的,配置过程中和hadoop进行了关联,这样可以让Pig在分布式存储上进行想要的处理。原创 2015-05-03 21:08:26 · 879 阅读 · 0 评论 -
Windows下安装hadoop并集成到myeclipse开发环境
具体细节请参看刘胜球的博客:在Windows系统中安装Hadoop链接为http://my.oschina.net/u/570654/blog/112757myeclipse配置Hadoop开发环境链接为http://my.oschina.net/u/570654/blog/112780下面开始讲解本人在安装过程中出现的问题以及解决方法:1、编辑conf/hadoop-env.sh原创 2015-05-12 19:03:42 · 1114 阅读 · 0 评论 -
Hadoop RPC
在介绍Hadoop RPC之前,需要首先介绍一下JAVA NIO,JAVA NIO是jdk发布的全新I/O类库。它不但引入了全新的高效的I/O机制,同时引入了基于Reactor设计模式的多路复用异步模式,NIO的包中主要包含以下几种抽象数据类型。Channel:NIO把它支持的I/O对象抽象为Channel,它模拟了通信连接,类似于原I/O中的流(Stream),用户可以通过它读取和写入数据。原创 2016-08-12 20:56:23 · 425 阅读 · 0 评论