使用JDBC将数据从Oracle导入到HDFS中

从Oracle导入数据到HDFS中最常见的方式就是利用sqoop,但是使用sqoop是有一些前提要求的,当我们因为某些原因不能使用sqoop时,就应该考虑其他的方式了,比如java中最常用的jdbc。本文就是我以一个编程新手的身份处理这个需求的全部过程及体会,其中还会包含一些作为新手初次使用maven构建遇到的问题以及从mysql到oracle的不适应导致的一些问题等等。
首先,在网上查了一些资料。其中对我启发最大的就是这篇Hadoop学习笔记——1.java读取Oracle中表的数据,创建新文件写入Hdfs
,特此表示感谢。可以说我的程序基本就是仿照他的进行改写的。这部分写代码的过程很顺利,就是对照着原文改自己的就行了嘛。

1.maven构建

然后,第一个问题来了,因为写好的程序需要放到服务器上运行,所以需要将程序打成jar包,在尝试了几遍直接打包失败之后,我决定用maven构建一下,根据网上教程,新建一个maven工程——将之前的代码复制过来——在工程名上右键——maven——download sources——再次右键——maven——update project。此时pom文件会报错,因为你还没有将你所要导入的包加进来,比如想要加个dbutils的包,首先百度maven仓库,进入第一个页面,然后搜索dbutils,选择所要引用的继续点击,选择版本,之后将其中的XML格式的代码复制一下,如下:

<dependency>
    <groupId>commons-dbutils</groupId>
    <artifactId>commons-dbutils</artifactId>
    <version>1.6</version>
</dependency>

之后将它加到pom.xml里的两个dependencies标签当中。
做完这一切以后,再update一下,但是很诡异的是,我update了无数遍,依然还是pom文件报错,一开始是这个错:missing artifact jdk.tools:jdk.tools.jar。解决方法如下:在pom文件中加入

 <dependency>
			<groupId>jdk.tools</groupId>
			<artifactId>jdk.tools</artifactId>
			<version>1.8.0_121</version>
			<scope>system</scope>
			<systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>
		</dependency>

然后确保你的jdk版本和上述是一致的,如果还是不行的话,右键点击eclipse的window,选择preference——java——install JREs,这里会有jdk的路径,可以先remove再add,然后apply。再再不行的话,右键项目——properties——java buildpath——libraries——add library之后跟着提示选择自己的jre,最后点击finish即可。注意这几步里的版本和jdk一定要一致。
很遗憾,到这里为止,我的pom文件还是报错,最后发现,我在里面使用了一个连接oracle的包ojdbc14,但是update老是失败,我找到下载这个包的网址以后发现了问题,这个包是不可以直接下载的,必须先登录自己的oracle账号才可以下载,最后的解决方式是:先在网上找到这个包下载下来,然后在此处Windows键加R,输入cmd打开命令行,输入命令:mvn install:install-file -DgroupId=com.oracle -DartifactId=ojdbc14 -Dversion=10.2.0.1.0 -Dpackaging=jar -Dfile=F:\maven\mvn-repository\com\oracle\ojdbc14\10.2.0.1.0/ojdbc14-10.2.0.1.0.jar。其中dfile后面是这个包的安装路径,并且在pom文件里加上相关信息就好。
最后,如果需要打成jar包以后附带着所需的包时,在pom里加入以下:

			<plugin>
	           <artifactId>maven-assembly-plugin</artifactId>
		        <configuration>
		          <descriptorRefs>
		            <descriptorRef>jar-with-dependencies</descriptorRef>
		          </descriptorRefs>
		          <archive>  
                        <manifest>  
                            <mainClass>com.itsenlin.Helloworld</mainClass>
                        </manifest>
                   </archive>
		        </configuration>
		        <executions>
		          <execution>
		            <id>make-assembly</id> 
		            <phase>package</phase> 
		            <goals>
		              <goal>single</goal>
		            </goals>
		          </execution>
		        </executions>
	        </plugin>

2.配置文件路径问题

我的oracle相关配置是写到了一个配置文件里的,然后发现按照自己之前单机版的写法出了问题,在服务器上运行时,找不到配置文件。前前后后试了好多种写法,如将配置文件路径写成相对路径,直接右键复制它的绝对路径等都不奏效。最后引起我注意的是,在服务器上运行时显示:java.io.FileNotFoundException:jdbc.properties(no such file or directory),但是当我直接在本地运行的时候却没有这个错误。
最后分析原因应该是打包的时候没有打进去,解决方法为:将配置文件单独发在服务器上,jdbc读取时使用如下方式:

String path = System.getProperty("user.dir") + "/jdbc.properties";
FileInputStream in = new FileInputStream(path);

3.写入到hdfs里遇到的问题

代码运行时,出现如下问题:org.apache.hadoop.security.AccessControlException:Perssion denied: user=…之后略去,看起来像是hdfs的权限问题,但是我确认过好多遍以后,我的权限是可以的,最后搜索以后发现,应该在原文打开hdfs系统时,加上以下两句:
conf.set("fs.defaultFS","hdfs://——————"); //后面是主机和端口号

conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());

此时所有的代码基本完毕,在服务器上跑时已经可以使用了。但是速度特别慢,大概5000条数据需要7分钟左右,实用性特别差。

4.针对jdbc优化

这里的优化主要用了以下几条:
1.使用数据库连接池
2.使用preparedstatement进行预编译
3.使用ResultSet游标处理记录(优化)

ps = (PreparedStatement) conn.prepareStatement(sql,ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY);

4.设置Fetch Size,一般来说数量设置在100左右比较合理
这个博客有很多值得参考的地方:关于oracle与mysql官方jdbc的一些区别

5.最后优化

在经过上面种种处理之后,速度有一定提升,但是处理大批量数据时仍然捉襟见肘,无法满足实际要求,于是我决定重新审视代码,这次我将里面的所有判断都尽可能去掉,以传参的方式代替。
最关键的一步来了!我之前接收表中具体数据的时候,采用的是getObject()的方式,这次我决定不厌其烦的用他们原本的类型来接收,比如字段是int类型就用getInt(),字段类型是String就用getString(),这次改完以后,表现令人相当振奋!5000条的数据几乎是瞬间就传完了。13万条记录,每条记录都有46个字段,用时一分钟多一点。这给了作为新手的我相当大的震撼,总结如下:
1.要想提升效率,所有的代码应该尽量摒弃各种框架,尽量采用最底层的方式。
2.类似于算法里时间复杂度和空间复杂度的关系,二者不可得兼,要想时间快写代码的时候就不能嫌麻烦。
3.写代码的时候要仔细思考,一些看似无足轻重的东西往往可能决定大局。
最后附上部分源码:
业务逻辑部分:

import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import com...util.JdbcUtil;

public class Dao...Impl implements Dao {
	Connection conn = null;
	PreparedStatement ps = null;
	Statement stmt = null;
	String sql = null;
	ResultSet rs = null;
	int count = 0;

	public ResultSet get(int sNum,int eNum) {
		try {
			//获取连接
			conn = JdbcUtil.getConn();
			sql = "select * from (select a.*,rownum as rw from (表名) a) b where b.rw >= ? and b.rw <= ?";
			//使用ResultSet游标处理记录(优化)
			ps = (PreparedStatement) conn.prepareStatement(sql,ResultSet.TYPE_FORWARD_ONLY,
		              ResultSet.CONCUR_READ_ONLY);
			//预编译sql
			ps = conn.prepareStatement(sql);
			//设置Fetch Size(优化)
			ps.setFetchSize(100);
			//传参
			ps.setInt(1, sNum);
			ps.setInt(2, eNum);
			//ps.setString(1, tbName);
			//执行sql
			rs = ps.executeQuery();
			return rs;
		}catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
	
	//数据拼接成字符串
	public void strSplit(String tbName,ResultSet rs,int sNum) {
		String str = "";
		try {
			while(rs.next()){
				str += rs.getInt(1) + "\t" + rs.getString(2) + "\t" + rs.getInt(3) + "\t" + rs.getString(4) + "\t" + ... + "\n"; 
			}
			toHdfs(tbName, str, sNum);
			JdbcUtil.close(conn, ps, rs);
		} catch (SQLException e) {
			e.printStackTrace();
		}
	}
	
	public void toHdfs(String tbName,String str,int sNum) {
		InputStream in = null;
		FSDataOutputStream fo = null;
		try {
			//str转为InputStream
			in = new ByteArrayInputStream(str.getBytes("UTF-8"));
			//打开hdfs文件系统
			Configuration conf = new Configuration();
			conf.set("fs.defaultFS","hdfs://主机:端口号");
			conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
			FileSystem fs = FileSystem.get(conf);
			//创建新的hdfs文件,打开输出流
			String path = "hdfs://..." + tbName + "/" + tbName + (int)(sNum/5000);
			fo = fs.create(new Path(path));
			//写入数据
			int len = 0;
			byte[] b = new byte[1024];
			while((len=in.read(b))>-1){
				fo.write(b,0,len);
			}
		} catch (Exception e) {
			e.printStackTrace();
		}finally {
			try {
				in.close();
				fo.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
	}

	public int getCount() {
		try {
			//获取连接
			conn = JdbcUtil.getConn();
			sql = "select count(*) from collect_phone";
			//预编译sql
			stmt = conn.prepareStatement(sql);
			//执行sql
			ResultSet rs1 = stmt.executeQuery(sql);
			if (rs1.next()) {
				count = rs1.getInt(1);
			}
			return count;
		}catch (Exception e) {
			e.printStackTrace();
		}
		return 0;
	}
}

主函数:

import java.sql.ResultSet;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

import org.apache.log4j.BasicConfigurator;

import com...Dao...Impl;

public class App {
	public static void main(String[] args) {
		BasicConfigurator.configure();
		String tbName = "表名";
		DaoPersonImpl dao = new DaoPersonImpl();
		int sum = dao.getCount();
		int count = (sum/5000) + 1;
		int sNum = 1;
		int eNum = 5000;
		int remainder = sum % 5000;
		//线程池
		ExecutorService executor = Executors.newFixedThreadPool(10);
		if (remainder != 0) {
			for (int i = count; i > 2; i--) {
				Runnable run = new myThread(sNum, eNum, tbName);
				executor.execute(run);
				sNum = sNum + 5000;
				eNum = eNum + 5000;
			}
			Runnable run = new myThread(sNum, eNum, tbName);
			executor.execute(run);
			sNum = sNum + 5000;
			eNum = eNum + remainder;
			Runnable run2 = new myThread(sNum, eNum, tbName);
			executor.execute(run2);
		}else {
			for (int i = count; i > 0; i--) {
				Runnable run = new myThread(sNum, eNum, tbName);
				executor.execute(run);
				sNum = sNum + 5000;
				eNum = eNum + 5000;
			}
		}
	}
	
	static class myThread implements Runnable {
		private int sNum;
		private int eNum;
		private String tbName;
		
		public myThread(int sNum, int eNum,String tbName){
			this.sNum = sNum;
			this.eNum = eNum;
			this.tbName = tbName;
		}

		public void run() {
			DaoPersonImpl dao = new DaoPersonImpl();
			ResultSet rs = dao.get(sNum, eNum);
			dao.strSplit(tbName, rs, sNum);
		}
	}
}
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值