使用JDBC将数据从Oracle导入到HDFS中

最新推荐文章于 2024-05-17 00:56:35 发布

XueEaten

最新推荐文章于 2024-05-17 00:56:35 发布

阅读量2k

点赞数 2

分类专栏： java和大数据文章标签： jdbc hdfs oracle maven

本文链接：https://blog.csdn.net/XueEaten/article/details/83514869

版权

java和大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

从Oracle导入数据到HDFS中最常见的方式就是利用sqoop，但是使用sqoop是有一些前提要求的，当我们因为某些原因不能使用sqoop时，就应该考虑其他的方式了，比如java中最常用的jdbc。本文就是我以一个编程新手的身份处理这个需求的全部过程及体会，其中还会包含一些作为新手初次使用maven构建遇到的问题以及从mysql到oracle的不适应导致的一些问题等等。
首先，在网上查了一些资料。其中对我启发最大的就是这篇Hadoop学习笔记——1.java读取Oracle中表的数据，创建新文件写入Hdfs
，特此表示感谢。可以说我的程序基本就是仿照他的进行改写的。这部分写代码的过程很顺利，就是对照着原文改自己的就行了嘛。

1.maven构建

然后，第一个问题来了，因为写好的程序需要放到服务器上运行，所以需要将程序打成jar包，在尝试了几遍直接打包失败之后，我决定用maven构建一下，根据网上教程，新建一个maven工程——将之前的代码复制过来——在工程名上右键——maven——download sources——再次右键——maven——update project。此时pom文件会报错，因为你还没有将你所要导入的包加进来，比如想要加个dbutils的包，首先百度maven仓库，进入第一个页面，然后搜索dbutils，选择所要引用的继续点击，选择版本，之后将其中的XML格式的代码复制一下，如下：

<dependency>
    <groupId>commons-dbutils</groupId>
    <artifactId>commons-dbutils</artifactId>
    <version>1.6</version>
</dependency>

之后将它加到pom.xml里的两个dependencies标签当中。
做完这一切以后，再update一下，但是很诡异的是，我update了无数遍，依然还是pom文件报错，一开始是这个错：missing artifact jdk.tools:jdk.tools.jar。解决方法如下：在pom文件中加入

 <dependency>
			<groupId>jdk.tools</groupId>
			<artifactId>jdk.tools</artifactId>
			<version>1.8.0_121</version>
			<scope>system</scope>
			<systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>
		</dependency>

然后确保你的jdk版本和上述是一致的，如果还是不行的话，右键点击eclipse的window，选择preference——java——install JREs，这里会有jdk的路径，可以先remove再add，然后apply。再再不行的话，右键项目——properties——java buildpath——libraries——add library之后跟着提示选择自己的jre，最后点击finish即可。注意这几步里的版本和jdk一定要一致。
很遗憾，到这里为止，我的pom文件还是报错，最后发现，我在里面使用了一个连接oracle的包ojdbc14，但是update老是失败，我找到下载这个包的网址以后发现了问题，这个包是不可以直接下载的，必须先登录自己的oracle账号才可以下载，最后的解决方式是：先在网上找到这个包下载下来，然后在此处Windows键加R，输入cmd打开命令行，输入命令：mvn install:install-file -DgroupId=com.oracle -DartifactId=ojdbc14 -Dversion=10.2.0.1.0 -Dpackaging=jar -Dfile=F:\maven\mvn-repository\com\oracle\ojdbc14\10.2.0.1.0/ojdbc14-10.2.0.1.0.jar。其中dfile后面是这个包的安装路径，并且在pom文件里加上相关信息就好。
最后，如果需要打成jar包以后附带着所需的包时，在pom里加入以下：

			<plugin>
	           <artifactId>maven-assembly-plugin</artifactId>
		        <configuration>
		          <descriptorRefs>
		            <descriptorRef>jar-with-dependencies</descriptorRef>
		          </descriptorRefs>
		          <archive>  
                        <manifest>  
                            <mainClass>com.itsenlin.Helloworld</mainClass>
                        </manifest>
                   </archive>
		        </configuration>
		        <executions>
		          <execution>
		            <id>make-assembly</id> 
		            <phase>package</phase> 
		            <goals>
		              <goal>single</goal>
		            </goals>
		          </execution>
		        </executions>
	        </plugin>

2.配置文件路径问题

我的oracle相关配置是写到了一个配置文件里的，然后发现按照自己之前单机版的写法出了问题，在服务器上运行时，找不到配置文件。前前后后试了好多种写法，如将配置文件路径写成相对路径，直接右键复制它的绝对路径等都不奏效。最后引起我注意的是，在服务器上运行时显示：java.io.FileNotFoundException:jdbc.properties(no such file or directory)，但是当我直接在本地运行的时候却没有这个错误。
最后分析原因应该是打包的时候没有打进去，解决方法为：将配置文件单独发在服务器上，jdbc读取时使用如下方式：

String path = System.getProperty("user.dir") + "/jdbc.properties";
FileInputStream in = new FileInputStream(path);

3.写入到hdfs里遇到的问题

代码运行时，出现如下问题：org.apache.hadoop.security.AccessControlException:Perssion denied: user=…之后略去，看起来像是hdfs的权限问题，但是我确认过好多遍以后，我的权限是可以的，最后搜索以后发现，应该在原文打开hdfs系统时，加上以下两句：
conf.set("fs.defaultFS","hdfs://——————"); //后面是主机和端口号

conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());

此时所有的代码基本完毕，在服务器上跑时已经可以使用了。但是速度特别慢，大概5000条数据需要7分钟左右，实用性特别差。

4.针对jdbc优化

这里的优化主要用了以下几条：
1.使用数据库连接池
2.使用preparedstatement进行预编译
3.使用ResultSet游标处理记录(优化)

ps = (PreparedStatement) conn.prepareStatement(sql,ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY);

4.设置Fetch Size，一般来说数量设置在100左右比较合理
这个博客有很多值得参考的地方：关于oracle与mysql官方jdbc的一些区别

5.最后优化

在经过上面种种处理之后，速度有一定提升，但是处理大批量数据时仍然捉襟见肘，无法满足实际要求，于是我决定重新审视代码，这次我将里面的所有判断都尽可能去掉，以传参的方式代替。
最关键的一步来了！我之前接收表中具体数据的时候，采用的是getObject()的方式，这次我决定不厌其烦的用他们原本的类型来接收，比如字段是int类型就用getInt(),字段类型是String就用getString()，这次改完以后，表现令人相当振奋！5000条的数据几乎是瞬间就传完了。13万条记录，每条记录都有46个字段，用时一分钟多一点。这给了作为新手的我相当大的震撼，总结如下：
1.要想提升效率，所有的代码应该尽量摒弃各种框架，尽量采用最底层的方式。
2.类似于算法里时间复杂度和空间复杂度的关系，二者不可得兼，要想时间快写代码的时候就不能嫌麻烦。
3.写代码的时候要仔细思考，一些看似无足轻重的东西往往可能决定大局。
最后附上部分源码：
业务逻辑部分：

import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

import com...util.JdbcUtil;

public class Dao...Impl implements Dao {
	Connection conn = null;
	PreparedStatement ps = null;
	Statement stmt = null;
	String sql = null;
	ResultSet rs = null;
	int count = 0;

	public ResultSet get(int sNum,int eNum) {
		try {
			//获取连接
			conn = JdbcUtil.getConn();
			sql = "select * from (select a.*,rownum as rw from (表名) a) b where b.rw >= ? and b.rw <= ?";
			//使用ResultSet游标处理记录(优化)
			ps = (PreparedStatement) conn.prepareStatement(sql,ResultSet.TYPE_FORWARD_ONLY,
		              ResultSet.CONCUR_READ_ONLY);
			//预编译sql
			ps = conn.prepareStatement(sql);
			//设置Fetch Size(优化)
			ps.setFetchSize(100);
			//传参
			ps.setInt(1, sNum);
			ps.setInt(2, eNum);
			//ps.setString(1, tbName);
			//执行sql
			rs = ps.executeQuery();
			return rs;
		}catch (Exception e) {
			e.printStackTrace();
		}
		return null;
	}
	
	//数据拼接成字符串
	public void strSplit(String tbName,ResultSet rs,int sNum) {
		String str = "";
		try {
			while(rs.next()){
				str += rs.getInt(1) + "\t" + rs.getString(2) + "\t" + rs.getInt(3) + "\t" + rs.getString(4) + "\t" + ... + "\n"; 
			}
			toHdfs(tbName, str, sNum);
			JdbcUtil.close(conn, ps, rs);
		} catch (SQLException e) {
			e.printStackTrace();
		}
	}
	
	public void toHdfs(String tbName,String str,int sNum) {
		InputStream in = null;
		FSDataOutputStream fo = null;
		try {
			//str转为InputStream
			in = new ByteArrayInputStream(str.getBytes("UTF-8"));
			//打开hdfs文件系统
			Configuration conf = new Configuration();
			conf.set("fs.defaultFS","hdfs://主机:端口号");
			conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
			FileSystem fs = FileSystem.get(conf);
			//创建新的hdfs文件，打开输出流
			String path = "hdfs://..." + tbName + "/" + tbName + (int)(sNum/5000);
			fo = fs.create(new Path(path));
			//写入数据
			int len = 0;
			byte[] b = new byte[1024];
			while((len=in.read(b))>-1){
				fo.write(b,0,len);
			}
		} catch (Exception e) {
			e.printStackTrace();
		}finally {
			try {
				in.close();
				fo.close();
			} catch (IOException e) {
				e.printStackTrace();
			}
		}
	}

	public int getCount() {
		try {
			//获取连接
			conn = JdbcUtil.getConn();
			sql = "select count(*) from collect_phone";
			//预编译sql
			stmt = conn.prepareStatement(sql);
			//执行sql
			ResultSet rs1 = stmt.executeQuery(sql);
			if (rs1.next()) {
				count = rs1.getInt(1);
			}
			return count;
		}catch (Exception e) {
			e.printStackTrace();
		}
		return 0;
	}
}

主函数：

import java.sql.ResultSet;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;

import org.apache.log4j.BasicConfigurator;

import com...Dao...Impl;

public class App {
	public static void main(String[] args) {
		BasicConfigurator.configure();
		String tbName = "表名";
		DaoPersonImpl dao = new DaoPersonImpl();
		int sum = dao.getCount();
		int count = (sum/5000) + 1;
		int sNum = 1;
		int eNum = 5000;
		int remainder = sum % 5000;
		//线程池
		ExecutorService executor = Executors.newFixedThreadPool(10);
		if (remainder != 0) {
			for (int i = count; i > 2; i--) {
				Runnable run = new myThread(sNum, eNum, tbName);
				executor.execute(run);
				sNum = sNum + 5000;
				eNum = eNum + 5000;
			}
			Runnable run = new myThread(sNum, eNum, tbName);
			executor.execute(run);
			sNum = sNum + 5000;
			eNum = eNum + remainder;
			Runnable run2 = new myThread(sNum, eNum, tbName);
			executor.execute(run2);
		}else {
			for (int i = count; i > 0; i--) {
				Runnable run = new myThread(sNum, eNum, tbName);
				executor.execute(run);
				sNum = sNum + 5000;
				eNum = eNum + 5000;
			}
		}
	}
	
	static class myThread implements Runnable {
		private int sNum;
		private int eNum;
		private String tbName;
		
		public myThread(int sNum, int eNum,String tbName){
			this.sNum = sNum;
			this.eNum = eNum;
			this.tbName = tbName;
		}

		public void run() {
			DaoPersonImpl dao = new DaoPersonImpl();
			ResultSet rs = dao.get(sNum, eNum);
			dao.strSplit(tbName, rs, sNum);
		}
	}
}

XueEaten

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
使用JDBC将数据从Oracle导入到HDFS中

从Oracle导入数据到HDFS中最常见的方式就是利用sqoop，但是使用sqoop是有一些前提要求的，当我们因为某些原因不能使用sqoop时，就应该考虑其他的方式了，比如java中最常用的jdbc。本文就是我以一个编程新手的身份处理这个需求的全部过程及体会，其中还会包含一些作为新手初次使用maven构建遇到的问题以及从mysql到oracle的不适应导致的一些问题等等。首先，在网上查了一些资料...
复制链接

扫一扫