前言
Apache Sqoop应该是在hadoop与SQL间上最常用的数据导入导出工具了。最近应为面试,简单看了一下sqoop 1.4.6的源码,整理如下。
驱动类——Sqoop
org.apache.sqoop.Sqoop是sqoop工具的启动类。
主要作用:
- 解析命令行传入的参数
- 根据参数调用相应的SqoopTool
工具类——SqoopTool
org.apache.sqoop.Sqoop.SqoopTool是一个抽象类,是所有SqoopTool的父类。它的类属性TOOLS里保存了所有SqoopTool的类对象。
主要作用:
1. 解析命令行传入的参数
2. 输出帮助信息
3. 完成具体功能
子类主要通过实现抽象方法public abstract int run(SqoopOptions options);
来实现功能。
下面详细介绍一下数据库导入工具类。
数据库导入工具类——ImportTool
org.apache.sqoop.tool.ImportTool是sqoop实现数据库导入功能的工具类。
ImportTool最核心的两个属性
protected ConnManager manager;
private CodeGenTool codeGenerator;
manager负责所有查询数据库的操作。
codeGenerator负责将表结构映射为java类。
ImportTool的run方法
@Override
/** {@inheritDoc} */
public int run(SqoopOptions options) {
HiveImport hiveImport = null;
if (allTables) {
// We got into this method, but we should be in a subclass.
// (This method only handles a single table)
// This should not be reached, but for sanity's sake, test here.
LOG.error("ImportTool.run() can only handle a single table.");
return 1;
}
if (!init(options)) {
return 1;
}
codeGenerator.setManager(manager);
try {
if