DBInputFormat用法

最新推荐文章于 2019-08-17 15:47:03 发布

技术蚂蚁

最新推荐文章于 2019-08-17 15:47:03 发布

阅读量1.8k

点赞数

分类专栏： Hadoop

Hadoop 专栏收录该内容

72 篇文章 3 订阅

订阅专栏

输入的数据库数据：

代码：

[java] view plain copy print ?

package hadoop_2_6_0;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.Writable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;
import org.apache.hadoop.mapreduce.lib.db.DBInputFormat;
import org.apache.hadoop.mapreduce.lib.db.DBWritable;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class DBInputFormatTest {
public static class MyMapper extends
Mapper<LongWritable, MyDBWritable, LongWritable, Text> {
final Text v2 = new Text();
protected void map(LongWritable key, MyDBWritable value,Mapper<LongWritable, MyDBWritable, LongWritable, Text>.Context context)throws InterruptedException, IOException {
v2.set(value.toString());
context.write(key, v2);
}
}
public static class MyDBWritable implements Writable,DBWritable{
int id;
String name;
public void write(PreparedStatement statement) throws SQLException {
statement.setInt(1, id);
statement.setString(2, name);
}
public void readFields(ResultSet resultSet) throws SQLException {
this.id=resultSet.getInt(1);
this.name=resultSet.getString(2);
}
public void write(DataOutput out) throws IOException {
out.write(id);
out.writeUTF(name);
}
public void readFields(DataInput in) throws IOException {
this.id=in.readInt();
this.name=in.readUTF();
}
public String toString(){
return "MyDBWritable[id="+id+",\t"+"name="+name+"]";
}
}
public static void main(String[] args) throws Exception {
final Configuration conf = new Configuration();
DBConfiguration.configureDB(conf, "com.mysql.jdbc.Driver", "jdbc:mysql://192.168.1.1:3306/oled", "root", "mysqladmin");
final Job job = Job.getInstance(conf, DBInputFormatTest.class.getSimpleName());
// 1.1
//FileInputFormat.setInputPaths(job,"hdfs://192.168.1.10:9000/input/hehe");
job.setInputFormatClass(DBInputFormat.class);
// 1.2
job.setMapperClass(MyMapper.class);
// 1.3
//job.setPartitionerClass(HashPartitioner.class);
//job.setNumReduceTasks(1);
// 1.4
// 1.5
// 2.2
job.setOutputKeyClass(LongWritable.class);
job.setOutputValueClass(Text.class);
//
DBInputFormat.setInput(job, MyDBWritable.class, "select id,name from DB", "select count(1) from DB");
// 2.3
FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.1.100:9000/DBout1"));
//job.setOutputFormatClass(TextOutputFormat.class);
job.setJarByClass(DBInputFormatTest.class);
job.waitForCompletion(true);
}
}

输出：

[java] view plain copy print ?

[root@baolibin ~]# hadoop fs -text /DBout1/part-*
Warning: $HADOOP_HOME is deprecated.
0 MyDBWritable[id=1, name=鲍礼彬]

Console输出：

[java] view plain copy print ?

15/04/14 21:10:32 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
15/04/14 21:10:32 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same.
15/04/14 21:10:32 WARN mapred.JobClient: No job jar file set. User classes may not be found. See JobConf(Class) or JobConf#setJar(String).
15/04/14 21:10:34 INFO mapred.JobClient: Running job: job_local486772134_0001
15/04/14 21:10:34 INFO mapred.LocalJobRunner: Waiting for map tasks
15/04/14 21:10:34 INFO mapred.LocalJobRunner: Starting task: attempt_local486772134_0001_m_000000_0
15/04/14 21:10:34 INFO mapred.Task: Using ResourceCalculatorPlugin : null
15/04/14 21:10:34 INFO mapred.MapTask: Processing split: org.apache.hadoop.mapreduce.lib.db.DBInputFormat$DBInputSplit@4abf053f
15/04/14 21:10:34 INFO mapred.MapTask: io.sort.mb = 100
15/04/14 21:10:34 INFO mapred.MapTask: data buffer = 79691776/99614720
15/04/14 21:10:34 INFO mapred.MapTask: record buffer = 262144/327680
15/04/14 21:10:34 INFO mapred.MapTask: Starting flush of map output
15/04/14 21:10:34 INFO mapred.MapTask: Finished spill 0
15/04/14 21:10:34 INFO mapred.Task: Task:attempt_local486772134_0001_m_000000_0 is done. And is in the process of commiting
15/04/14 21:10:34 INFO mapred.LocalJobRunner:
15/04/14 21:10:34 INFO mapred.Task: Task 'attempt_local486772134_0001_m_000000_0' done.
15/04/14 21:10:34 INFO mapred.LocalJobRunner: Finishing task: attempt_local486772134_0001_m_000000_0
15/04/14 21:10:34 INFO mapred.LocalJobRunner: Map task executor complete.
15/04/14 21:10:34 INFO mapred.Task: Using ResourceCalculatorPlugin : null
15/04/14 21:10:34 INFO mapred.LocalJobRunner:
15/04/14 21:10:34 INFO mapred.Merger: Merging 1 sorted segments
15/04/14 21:10:35 INFO mapred.Merger: Down to the last merge-pass, with 1 segments left of total size: 47 bytes
15/04/14 21:10:35 INFO mapred.LocalJobRunner:
15/04/14 21:10:35 INFO mapred.JobClient: map 100% reduce 0%
15/04/14 21:10:35 INFO mapred.Task: Task:attempt_local486772134_0001_r_000000_0 is done. And is in the process of commiting
15/04/14 21:10:35 INFO mapred.LocalJobRunner:
15/04/14 21:10:35 INFO mapred.Task: Task attempt_local486772134_0001_r_000000_0 is allowed to commit now
15/04/14 21:10:35 INFO output.FileOutputCommitter: Saved output of task 'attempt_local486772134_0001_r_000000_0' to hdfs://192.168.1.100:9000/DBout1
15/04/14 21:10:35 INFO mapred.LocalJobRunner: reduce > reduce
15/04/14 21:10:35 INFO mapred.Task: Task 'attempt_local486772134_0001_r_000000_0' done.
15/04/14 21:10:36 INFO mapred.JobClient: map 100% reduce 100%
15/04/14 21:10:36 INFO mapred.JobClient: Job complete: job_local486772134_0001
15/04/14 21:10:36 INFO mapred.JobClient: Counters: 18
15/04/14 21:10:36 INFO mapred.JobClient: File Output Format Counters
15/04/14 21:10:36 INFO mapred.JobClient: Bytes Written=37
15/04/14 21:10:36 INFO mapred.JobClient: File Input Format Counters
15/04/14 21:10:36 INFO mapred.JobClient: Bytes Read=0
15/04/14 21:10:36 INFO mapred.JobClient: FileSystemCounters
15/04/14 21:10:36 INFO mapred.JobClient: FILE_BYTES_READ=295
15/04/14 21:10:36 INFO mapred.JobClient: FILE_BYTES_WRITTEN=139062
15/04/14 21:10:36 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=37
15/04/14 21:10:36 INFO mapred.JobClient: Map-Reduce Framework
15/04/14 21:10:36 INFO mapred.JobClient: Map output materialized bytes=51
15/04/14 21:10:36 INFO mapred.JobClient: Map input records=1
15/04/14 21:10:36 INFO mapred.JobClient: Reduce shuffle bytes=0
15/04/14 21:10:36 INFO mapred.JobClient: Spilled Records=2
15/04/14 21:10:36 INFO mapred.JobClient: Map output bytes=43
15/04/14 21:10:36 INFO mapred.JobClient: Total committed heap usage (bytes)=323878912
15/04/14 21:10:36 INFO mapred.JobClient: Combine input records=0
15/04/14 21:10:36 INFO mapred.JobClient: SPLIT_RAW_BYTES=78
15/04/14 21:10:36 INFO mapred.JobClient: Reduce input records=1
15/04/14 21:10:36 INFO mapred.JobClient: Reduce input groups=1
15/04/14 21:10:36 INFO mapred.JobClient: Combine output records=0
15/04/14 21:10:36 INFO mapred.JobClient: Reduce output records=1
15/04/14 21:10:36 INFO mapred.JobClient: Map output records=1

解析：

指明驱动、要访问的数据库、用户名、密码：

[java] view plain copy print ?

DBConfiguration.configureDB(conf, "com.mysql.jdbc.Driver", "jdbc:mysql://192.168.1.1:3306/oled", "root", "mysqladmin");

设置操作语句：

[java] view plain copy print ?

DBInputFormat.setInput(job, MyDBWritable.class, "select id,name from DB", "select count(1) from DB");

根据数据库字段，自定义数据类型，该类实现接口Writable、DBWritable。

[java] view plain copy print ?

public static class MyDBWritable implements Writable,DBWritable

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
DBInputFormat用法

输入的数据库数据：代码：[java] view plain copy print?package hadoop_2_6_0; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.sql.Pr
复制链接

扫一扫

专栏目录

技术蚂蚁 CSDN认证博客专家 CSDN认证企业博客

码龄11年

17: 原创

18万+: 周排名

224万+: 总排名

38万+: 访问

: 等级

4260: 积分

120: 粉丝

55: 获赞

15: 评论

167: 收藏

私信

关注

热门文章

分类专栏

Hadoop 72篇
Spark 88篇
Zookeeper 2篇
Kafka 27篇
Eclipse 10篇
Linux 8篇
Oracle 3篇
Spring 3篇
JAVA线程 1篇
Java Mail 1篇
Java Web 3篇
Hive 13篇
spark ML 16篇
Spark优化 7篇
Spark源码 15篇
Yarn 11篇
Hadoop example 19篇
Java Thread 2篇
Redis 8篇
电脑 1篇
Maven 3篇
spark Sql 2篇
Java 6篇
JVM 4篇
时政 1篇
tensorflow 1篇
数据分析算法 1篇

最新评论

FCM聚类算法介绍
C语迷途: 博主，你这篇文章分享里面的公式都没有显示，还望博主更新一下。
hadoop 去重/排序/表关联/等
大概是犬青: 你这不是纯纯抄袭吗 https://blog.csdn.net/lzq123_1/article/details/40895705
<jsp:include>和<%@include%>的区别
꯭邓꯭文꯭豪꯭: 真的太舒服了！我还在读大学，老师布置了三道思考题动静态包含的区别就是其中一个，看了其他人的都是直接硬搬定义还有标着原创但就是抄袭的文章。您写的这篇文章直接从实例出发，这两者的区别显而易见，很有说服力，帮大忙了，谢谢！
使用redis缓存数据需要注意的问题以及个人的一些思考和理解
路飞飞飞飞飞飞～: 感谢
通过编程方式获取Kafka中Topic的Metadata信息
zengqinn123: 用kafka的 adminClient

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。