hadoop
lijie_cq
It's never too old to learn
展开
-
hadoop使用java多文件上传简单demo
package com.lijie.multiplefileupload;import java.io.File;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apa原创 2016-10-09 21:12:16 · 672 阅读 · 0 评论 -
worldcount程序java版本
程序如下package com.lijie.worldcount;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.原创 2016-10-09 20:57:53 · 581 阅读 · 0 评论 -
hadoop dfs.datanode.du.reserved datanode预留空间
在使用hdfs存储的时候可能会遇到一个问题:明明设置hadoop dfs.datanode.du.reserved预留空间的,但是磁盘还是被写满了。当你挂载磁盘作为datanode的存储空间,如果磁盘大小为500G当你使用df -h 可能会发现上面显示(举个例子):总磁盘大小500G,使用了430G,剩余50G,这里就会有个问题:500G-(430G+50G)=20G, 还差了20G空间。就是因为原创 2017-02-10 14:23:34 · 5409 阅读 · 1 评论 -
cdh版本hadoop五节点部署
感觉这篇很不错,记录下:http://blog.csdn.net/u010270403/article/details/51446674转载 2017-01-12 14:07:42 · 1254 阅读 · 0 评论 -
白话hadoop yarn的调度过程以mapreduce程序为例
今天上完班,终于可以回去了,现在在公司没什么事干,就用白话来总结下mapreduce的执行流程吧,如果有错误的地方大家尽管指出。首先在hadoop 1.x中和hadoop 2.x中,mapreduce的执行流程也不一样(完全不一样),在hadoop1.x中 mapreduce的 资源管理与分配和任务监控都是集中在 jobtracker 上,这样会造成jobtracker的负担非常大,而且在hadoo原创 2017-01-25 11:54:42 · 3876 阅读 · 0 评论 -
hadoop的mapreduce任务的执行流程
hadoop2.x的三大核心:mapreduce 、hdfs以及yarn ,其中核心之一mapreduce,利用了分而治之的思想,Map(映射)和 Reduce(归约),分布式多处理然后进行汇总的思想,比如:清点扑克牌把里面的花色都分开,一个人清点那么可能耗时4分钟,如果利用mapreduce的思想,把扑克牌分成4份,每个人对自己的那一份进行清点,然后4个人都清点完成之后把各自的相同花色放一起进行汇原创 2017-03-23 20:25:19 · 7386 阅读 · 1 评论 -
cdh cm5.11.0 namenode 高可用配置
简单记录下过程:点击操作:然后:继续 选择主机:继续:继续(下面这个错误忽略):继续直到完成,然后下一步:继续:访问name web ui 发现一个active 一个 standby:这里更新hive metastore,但是我这里是灰色的,就不用更新:namenode ha 配置完成!原创 2017-05-25 23:54:33 · 3935 阅读 · 0 评论 -
hadoop集群的一些测试
hadoop的一些测试,做一个记录:一下操作都是在这个目录下面执行:/opt/cloudera/parcels/CDH/jars1.HDFS 写数据IO测试Throughput 平均值: 86.73306 Average IO rate 平均值: 89.33704 IO rate std deviation 平均值: 16.62124 Test exec t原创 2017-06-08 19:09:08 · 3908 阅读 · 0 评论 -
yran参数的配置
yran参数,参考如下博客: http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-memory-cpu-scheduling/ http://blog.csdn.net/suifeng3051/article/details/48135521yarn.scheduler.minimum-allocation-mb AppMast原创 2017-07-12 12:43:15 · 587 阅读 · 0 评论 -
使用cdh和azkaban、redis等遇到的一些小问题
记录一下,下次遇到可以更快解决:1.hive 遇到问题:Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient原创 2017-05-31 11:39:52 · 3715 阅读 · 0 评论 -
CM5.11.0安装笔记
1.配置网络[root@server1 ~]# vi /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 HWADDR=00:0C:29:2b:f8:e0 TYPE=Ethernet UUID=c2618c28-e1b5-46da-9124-2af371aa5df1 ONBOOT=yes NM_CONTROLLED=yes BOO原创 2017-05-25 03:34:17 · 3874 阅读 · 2 评论 -
ResourceManager相关配置参数
注意,配置这些参数前,应充分理解这几个参数的含义,以防止误配给集群带来的隐患。另外,这些参数均需要在yarn-site.xml中配置。1.ResourceManager相关配置参数(1) yarn.resourcemanager.address 参数解释:ResourceManager 对客户端暴露的地址。客户端通过该地址向RM提交应用程序,杀死应用程序等。 默认值: yarn.resou转载 2017-01-16 15:08:51 · 2964 阅读 · 0 评论 -
mr编程递归显示hdfs目录下所有文件
递归: 程序调用自身的编程技巧称为递归。用递归算法解决汉诺塔、阶乘等问题都很经典,一般我们查询系统中目录下的所有文件也会用到递归的思想。下面我们用java代码来实现打印本地指定路径下的所有文件:/** * 递归打印本地目录 * @param file */public static void printLocal(File file) { if (file.isDirectory(原创 2016-10-26 19:32:50 · 2275 阅读 · 0 评论 -
hadoop的InputFormat简单demo
1.序列化对象package com.lijie.inutformat;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class ScorePair implements Writ原创 2016-10-09 21:08:00 · 571 阅读 · 0 评论 -
hadoop的序列化简单demo
package com.lijie.hadoopxuliehua;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.WritableComparable;public原创 2016-10-09 21:04:20 · 378 阅读 · 0 评论 -
java上传文件到hdfs简单demo
package com.lijie.uploadsingle;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;i原创 2016-10-09 21:03:17 · 5679 阅读 · 1 评论 -
java访问hdfs简单demo
代码如下package com.lijie.javaapivisit;import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLoca原创 2016-10-09 21:01:15 · 1378 阅读 · 0 评论 -
hadoop自定义counter简单java Demo
1.hadoop的counter可以是用枚举和字符串两种方式定义枚举://先定义枚举public static enum LOG_COUNTER{ BAD_RECORDS;}//使用counterCounter counter = context.getCounter(LOG_COUNTER.BAD_RECORDS);counter.increment(1);字符串Coun原创 2016-10-10 15:17:47 · 537 阅读 · 0 评论 -
hadoop的Group Comparator
最近看dadoop中关于辅助排序(SecondarySort)的实现,说到了三个东西要设置:1. partioner;2. Key Comparator;3. Group Comparator。前两个都比较容易理解,但是关于group的概念我一直理解不了,一,有了partioner,所有的key已经放到一个分区了,每个分区对应一个reducer,而且key也可以排序了,那么不是实现了整个数据集的全排转载 2016-10-09 21:46:15 · 1936 阅读 · 0 评论 -
namenode和secondarynamenode的区别和联系及辅助恢复元数据
namenode主要负责元数据的管理和与client的通讯。secondarynamenode主要负责对namenode的edits日志文件和fsimage文件进行合并。那这里就必须说说fsimage镜像文件和edits日志文件是什么了?1.fsimage文件其实就是namenode所管理的元数据的信息,只不过是被序列化到磁盘上的镜像文件,因为namenode的元数据信息都是存在内存中的,如果我原创 2016-11-29 21:13:18 · 2578 阅读 · 0 评论 -
hadoop所封装的RPC框架简单使用
在分布式系统中各台服务器需要相互调用其他服务器的某些方法,可以使用RPC的方式调用(webservice也是rpc的一种实现方式),在hadoop中有一套它自己封装好的RPC工具包,在hadoop的common包中,导入这个包即可。下面我们来简单使用下hadoop封装的rpc框架:服务器端:1.创建一个协议接口public interface MyInterface { //版本号原创 2016-11-29 23:52:02 · 1190 阅读 · 0 评论 -
split和block的区别以及maptask和reducetask个数设定
split和block的区别:很多人可能认为在hadoop中的split和block是一样的,可能是因为hadoop在默认情况下split的大小和hdfs文件分块大小是一样而被误导吧。下面来谈谈他们的区别和联系: 1.split是mapreduce中的概念,而block是hdfs中切块的大小。2.split的大小时默认和hdfs的block块大小一致,但是可以通过配置文件自己设置: 其中有俩个原创 2016-12-04 22:59:12 · 5349 阅读 · 0 评论 -
HDFS读写文件流程
1.HDFS写流程:客户端要向HDFS写数据,首先要跟namenode通信以确认可以写文件并获得接收文件block的datanode,然后,客户端按顺序将文件逐个block传递给相应datanode,并由接收到block的datanode负责向其他datanode复制block的副本如图: 写详细步骤:1、根namenode通信请求上传文件,namenode检查目标文件是否已存在,父目录是否存在原创 2016-11-24 23:49:50 · 23531 阅读 · 0 评论 -
hadoop的mapreduce编程模型中GroupingComparator的使用
在hadoop的mapreduce编程模型中,当在map端处理完成输出key-value对时,reduce端只会将key相同的到同一个reduce函数中去执行,如果现在map端输出的key是一个对像TextPair,,那这样每个map端到reduce都会变成如下形式(因为每个对象都不一样):<textPair01,1><textPair02,1><textPair03,1><textPair0原创 2016-12-06 19:06:27 · 3772 阅读 · 10 评论