hadoop
wending-Y
这个作者很懒,什么都没留下…
展开
-
hadoop map reduce过程分析
流程图借了高手的流程图map 函数开始 protected class MapTaskRunnable extends RunnableWithThrowable { public void run() { try { TaskAttemptID mapId = new TaskAttemptID(new TaskID( jobId, TaskType.MAP, taskId), 0); LOG.inf原创 2020-11-12 00:32:59 · 220 阅读 · 0 评论 -
hadoop map个数
map个数今天来看下map个数的源码测试环境测试让读两个文件从日志来看是2个map22:11:32,649 DEBUG LocalJobRunner:397 - Map tasks to process: 2生成切片信息public List<InputSplit> getSplits(JobContext job) throws IOException { StopWatch sw = new StopWatch().start(); long minSize =原创 2020-11-11 01:06:11 · 213 阅读 · 0 评论 -
Kudu Vs Hbase Vs Hadoop
Kudu Vs Hbase Vs HadoopHadoop在离线批量环境下分析能力最强,在随机查询条件下表现最差,适合N+1这种场景Kudu 大数据量下实时分析能力强,在随机查询下拥有较低的延迟,适合实时写,实时分析的场景hbase 随机读写能力最强,批量分析能力最差,不适合分析场景...原创 2020-06-28 20:14:44 · 432 阅读 · 0 评论 -
HDFS 常用命令
查看文件信息hdfs fsck /user/hadoop/data.txt -files -locations -blocks可以得到文件有两个Block,每个块的大小,副本数,副本在哪台机器上/user/hadoop/data.txt 179999982 bytes, 2 block(s): OK0. BP-1378127492-172.31.109.171-1514096675446:原创 2018-01-05 16:59:03 · 271 阅读 · 0 评论 -
MapReducer任务在到Yarn上运行流程分析
源码看mapreduce在yarn上流程分析原创 2018-01-05 16:34:14 · 503 阅读 · 0 评论 -
MapReduce中map,reduce个数
1.文件大于128M,则split成两个.举例如果两个文件,一个文件150M,一个文件30M,先对30M的文件split,因为小于128M,则只有一个map,再对150Msplit,大于128M,split成2map. 2.reduce个数默认是一个,可以进行指定,指定后根据数据的key把数据分到不同的reduce上。 例如hadoop jar hadoop-examples.jar wordc原创 2017-12-30 00:06:54 · 824 阅读 · 0 评论 -
hadoop+hive+hbase+zookeeper常见Bug
1.在学习hadoop中遇到了很多错误,专门写篇文章来记录这些错误,今天只遇到一个,以后会不定期更新。2.bug1: Directory /tmp/hadoop-lei/dfs/name is in an inconsistent state: storage directory does not exist or is not accessible.解决方法:重新格式化就原创 2017-02-23 19:50:34 · 729 阅读 · 0 评论 -
hadoop自定义输出格式
1.主要继承这个OutputFormat类,实现里面的方法getRecordWritercheckOutputSpecsgetOutputCommitter2.主要实现第一个方法,这里我们把结果输出到mysql中public class NewSqlOutputFormat extends OutputFormat<Text, IntWritable> { @Override pu原创 2017-06-27 11:25:58 · 1127 阅读 · 0 评论 -
hadoop二次排序解析
二次排序思路分析试验数据 100 12100 23100 9101 32101 30 99 2399 202.定义数据类型intpair,第一个数字为first,第二个数字为secondpublic static class IntPair implements WritableComparable<IntPair> { int first;原创 2017-06-27 17:38:08 · 549 阅读 · 0 评论 -
hadoop 从mysql中读取数据写到hdfs
定义类import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException;import org.apache.hadoop.i原创 2017-06-30 21:39:17 · 3780 阅读 · 2 评论 -
hadoop自定义输入格式(InputFormat)
自定义输入InputFormat原创 2017-05-07 09:49:01 · 2102 阅读 · 0 评论 -
启动 cloudera-scm-server服务 出现:Error creating bean with name 'entityManagerFactoryBean':
1.这个错误是启动 cloudera-scm-server服务出现的 2. 先看一下报错的内容2017-04-29 18:45:25,476 INFO main:org.hibernate.service.jdbc.connections.internal.C3P0ConnectionProvider: HHH010002: C3P0 using driver: com.mysql.jdbc.D原创 2017-04-30 18:09:19 · 15347 阅读 · 1 评论 -
hadoop自定义分区
实现自定义分区比较简单了,继承Partitioner,实现getPartition()方法就行了,分区是按照key进行的。以wordcount为例。输入文本1 hello world hello 3.输入文本2 hello world world 4 编写程序,hello 和world各自为一个分区,各自对应一个reduce,对应一个输出文件。public class MyPatitione原创 2017-03-15 16:01:49 · 1135 阅读 · 0 评论 -
Oozie配置mysql 时 Could not connect to the database:
使用场景:我是在配置Oozie过程中配置数据库时,不能连接到mysql,问题在于数据库的权限问题。方法:找到linux下数据库的配置文件,我的在/usr/my.cnf下,有的可能在/etc/my.cnf在后面加上skip-grant-tables=true原创 2017-02-27 21:41:14 · 2071 阅读 · 0 评论 -
hadoop自定义数据类型
自定义数据类型实现实现接口WritableComparable输入数据格式,第一列为班级号,第二列为姓名,第三列为学号 1 小明 10 3 大明 11 1 小王 12 4 大王 13 1 小张 14 6 大张 153.输出数据格式 同一个班级在一起 1 学号:14姓名小张 学号:12姓名小王 学号:10姓名小明 3 学号:11姓名大明 4原创 2017-03-15 23:06:17 · 330 阅读 · 0 评论 -
图文并茂展示hadoop 中wordcount的 输入,map处理,排序,分区,分组,combine,copy,再排序,分组,redece处理
图文并茂展示hadoop 中wordcount的 输入,map处理,排序,分区,分组,combine,copy,再排序,分组,redece处理原创 2017-03-17 18:19:33 · 752 阅读 · 0 评论 -
CentOS搭建Hadoop分布式集群详细步骤和常见问题解决
花了好长时间终于把集群搭建起来了,写出来给大家分享下,让大家少走点弯路。首先我们来看看成功后的效果,三个结点成功运行wordcount这个程序结果,运行出结果 计算出来的结果图 3.实验准备 虚拟机里3台拥有CentOS6.4操作系统的计算机 hadoop-2.5.2.tar.gz安装包 jdk-8u111-linux-x64.tar.gz安装包 三台电脑要有相同的安装目录,放原创 2016-11-27 14:30:33 · 1201 阅读 · 0 评论 -
NameNode启动日志文件位置
如图所示原创 2016-11-26 20:16:54 · 7310 阅读 · 0 评论