从Oracle导入数据到HDFS中最常见的方式就是利用sqoop,但是使用sqoop是有一些前提要求的,当我们因为某些原因不能使用sqoop时,就应该考虑其他的方式了,比如java中最常用的jdbc。本文就是我以一个编程新手的身份处理这个需求的全部过程及体会,其中还会包含一些作为新手初次使用maven构建遇到的问题以及从mysql到oracle的不适应导致的一些问题等等。
首先,在网上查了一些资料。其中对我启发最大的就是这篇Hadoop学习笔记——1.java读取Oracle中表的数据,创建新文件写入Hdfs
,特此表示感谢。可以说我的程序基本就是仿照他的进行改写的。这部分写代码的过程很顺利,就是对照着原文改自己的就行了嘛。
1.maven构建
然后,第一个问题来了,因为写好的程序需要放到服务器上运行,所以需要将程序打成jar包,在尝试了几遍直接打包失败之后,我决定用maven构建一下,根据网上教程,新建一个maven工程——将之前的代码复制过来——在工程名上右键——maven——download sources——再次右键——maven——update project。此时pom文件会报错,因为你还没有将你所要导入的包加进来,比如想要加个dbutils的包,首先百度maven仓库,进入第一个页面,然后搜索dbutils,选择所要引用的继续点击,选择版本,之后将其中的XML格式的代码复制一下,如下:
<dependency>
<groupId>commons-dbutils</groupId>
<artifactId>commons-dbutils</artifactId>
<version>1.6</version>
</dependency>
之后将它加到pom.xml里的两个dependencies标签当中。
做完这一切以后,再update一下,但是很诡异的是,我update了无数遍,依然还是pom文件报错,一开始是这个错:missing artifact jdk.tools:jdk.tools.jar。解决方法如下:在pom文件中加入
<dependency>
<groupId>jdk.tools</groupId>
<artifactId>jdk.tools</artifactId>
<version>1.8.0_121</version>
<scope>system</scope>
<systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>
</dependency>
然后确保你的jdk版本和上述是一致的,如果还是不行的话,右键点击eclipse的window,选择preference——java——install JREs,这里会有jdk的路径,可以先remove再add,然后apply。再再不行的话,右键项目——properties——java buildpath——libraries——add library之后跟着提示选择自己的jre,最后点击finish即可。注意这几步里的版本和jdk一定要一致。
很遗憾,到这里为止,我的pom文件还是报错,最后发现,我在里面使用了一个连接oracle的包ojdbc14,但是update老是失败,我找到下载这个包的网址以后发现了问题,这个包是不可以直接下载的,必须先登录自己的oracle账号才可以下载,最后的解决方式是:先在网上找到这个包下载下来,然后在此处Windows键加R,输入cmd打开命令行,输入命令:mvn install:install-file -DgroupId=com.oracle -DartifactId=ojdbc14 -Dversion=10.2.0.1.0 -Dpackaging=jar -Dfile=F:\maven\mvn-repository\com\oracle\ojdbc14\10.2.0.1.0/ojdbc14-10.2.0.1.0.jar。其中dfile后面是这个包的安装路径,并且在pom文件里加上相关信息就好。
最后,如果需要打成jar包以后附带着所需的包时,在pom里加入以下:
<plugin>
<artifactId>maven-assembly-plugin</artifactId>
<configuration>
<descriptorRefs>
<descriptorRef>jar-with-dependencies</descriptorRef>
</descriptorRefs>
<archive>
<manifest>
<mainClass>com.itsenlin.Helloworld</mainClass>
</manifest>
</archive>
</configuration>
<executions>
<execution>
<id>make-assembly</id>
<phase>package</phase>
<goals>
<goal>single</goal>
</goals>
</execution>
</executions>
</plugin>
2.配置文件路径问题
我的oracle相关配置是写到了一个配置文件里的,然后发现按照自己之前单机版的写法出了问题,在服务器上运行时,找不到配置文件。前前后后试了好多种写法,如将配置文件路径写成相对路径,直接右键复制它的绝对路径等都不奏效。最后引起我注意的是,在服务器上运行时显示:java.io.FileNotFoundException:jdbc.properties(no such file or directory),但是当我直接在本地运行的时候却没有这个错误。
最后分析原因应该是打包的时候没有打进去,解决方法为:将配置文件单独发在服务器上,jdbc读取时使用如下方式:
String path = System.getProperty("user.dir") + "/jdbc.properties";
FileInputStream in = new FileInputStream(path);
3.写入到hdfs里遇到的问题
代码运行时,出现如下问题:org.apache.hadoop.security.AccessControlException:Perssion denied: user=…之后略去,看起来像是hdfs的权限问题,但是我确认过好多遍以后,我的权限是可以的,最后搜索以后发现,应该在原文打开hdfs系统时,加上以下两句:
conf.set("fs.defaultFS","hdfs://——————"); //后面是主机和端口号
conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
此时所有的代码基本完毕,在服务器上跑时已经可以使用了。但是速度特别慢,大概5000条数据需要7分钟左右,实用性特别差。
4.针对jdbc优化
这里的优化主要用了以下几条:
1.使用数据库连接池
2.使用preparedstatement进行预编译
3.使用ResultSet游标处理记录(优化)
ps = (PreparedStatement) conn.prepareStatement(sql,ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY);
4.设置Fetch Size,一般来说数量设置在100左右比较合理
这个博客有很多值得参考的地方:关于oracle与mysql官方jdbc的一些区别
5.最后优化
在经过上面种种处理之后,速度有一定提升,但是处理大批量数据时仍然捉襟见肘,无法满足实际要求,于是我决定重新审视代码,这次我将里面的所有判断都尽可能去掉,以传参的方式代替。
最关键的一步来了!我之前接收表中具体数据的时候,采用的是getObject()的方式,这次我决定不厌其烦的用他们原本的类型来接收,比如字段是int类型就用getInt(),字段类型是String就用getString(),这次改完以后,表现令人相当振奋!5000条的数据几乎是瞬间就传完了。13万条记录,每条记录都有46个字段,用时一分钟多一点。这给了作为新手的我相当大的震撼,总结如下:
1.要想提升效率,所有的代码应该尽量摒弃各种框架,尽量采用最底层的方式。
2.类似于算法里时间复杂度和空间复杂度的关系,二者不可得兼,要想时间快写代码的时候就不能嫌麻烦。
3.写代码的时候要仔细思考,一些看似无足轻重的东西往往可能决定大局。
最后附上部分源码:
业务逻辑部分:
import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import com...util.JdbcUtil;
public class Dao...Impl implements Dao {
Connection conn = null;
PreparedStatement ps = null;
Statement stmt = null;
String sql = null;
ResultSet rs = null;
int count = 0;
public ResultSet get(int sNum,int eNum) {
try {
//获取连接
conn = JdbcUtil.getConn();
sql = "select * from (select a.*,rownum as rw from (表名) a) b where b.rw >= ? and b.rw <= ?";
//使用ResultSet游标处理记录(优化)
ps = (PreparedStatement) conn.prepareStatement(sql,ResultSet.TYPE_FORWARD_ONLY,
ResultSet.CONCUR_READ_ONLY);
//预编译sql
ps = conn.prepareStatement(sql);
//设置Fetch Size(优化)
ps.setFetchSize(100);
//传参
ps.setInt(1, sNum);
ps.setInt(2, eNum);
//ps.setString(1, tbName);
//执行sql
rs = ps.executeQuery();
return rs;
}catch (Exception e) {
e.printStackTrace();
}
return null;
}
//数据拼接成字符串
public void strSplit(String tbName,ResultSet rs,int sNum) {
String str = "";
try {
while(rs.next()){
str += rs.getInt(1) + "\t" + rs.getString(2) + "\t" + rs.getInt(3) + "\t" + rs.getString(4) + "\t" + ... + "\n";
}
toHdfs(tbName, str, sNum);
JdbcUtil.close(conn, ps, rs);
} catch (SQLException e) {
e.printStackTrace();
}
}
public void toHdfs(String tbName,String str,int sNum) {
InputStream in = null;
FSDataOutputStream fo = null;
try {
//str转为InputStream
in = new ByteArrayInputStream(str.getBytes("UTF-8"));
//打开hdfs文件系统
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://主机:端口号");
conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
FileSystem fs = FileSystem.get(conf);
//创建新的hdfs文件,打开输出流
String path = "hdfs://..." + tbName + "/" + tbName + (int)(sNum/5000);
fo = fs.create(new Path(path));
//写入数据
int len = 0;
byte[] b = new byte[1024];
while((len=in.read(b))>-1){
fo.write(b,0,len);
}
} catch (Exception e) {
e.printStackTrace();
}finally {
try {
in.close();
fo.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
public int getCount() {
try {
//获取连接
conn = JdbcUtil.getConn();
sql = "select count(*) from collect_phone";
//预编译sql
stmt = conn.prepareStatement(sql);
//执行sql
ResultSet rs1 = stmt.executeQuery(sql);
if (rs1.next()) {
count = rs1.getInt(1);
}
return count;
}catch (Exception e) {
e.printStackTrace();
}
return 0;
}
}
主函数:
import java.sql.ResultSet;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import org.apache.log4j.BasicConfigurator;
import com...Dao...Impl;
public class App {
public static void main(String[] args) {
BasicConfigurator.configure();
String tbName = "表名";
DaoPersonImpl dao = new DaoPersonImpl();
int sum = dao.getCount();
int count = (sum/5000) + 1;
int sNum = 1;
int eNum = 5000;
int remainder = sum % 5000;
//线程池
ExecutorService executor = Executors.newFixedThreadPool(10);
if (remainder != 0) {
for (int i = count; i > 2; i--) {
Runnable run = new myThread(sNum, eNum, tbName);
executor.execute(run);
sNum = sNum + 5000;
eNum = eNum + 5000;
}
Runnable run = new myThread(sNum, eNum, tbName);
executor.execute(run);
sNum = sNum + 5000;
eNum = eNum + remainder;
Runnable run2 = new myThread(sNum, eNum, tbName);
executor.execute(run2);
}else {
for (int i = count; i > 0; i--) {
Runnable run = new myThread(sNum, eNum, tbName);
executor.execute(run);
sNum = sNum + 5000;
eNum = eNum + 5000;
}
}
}
static class myThread implements Runnable {
private int sNum;
private int eNum;
private String tbName;
public myThread(int sNum, int eNum,String tbName){
this.sNum = sNum;
this.eNum = eNum;
this.tbName = tbName;
}
public void run() {
DaoPersonImpl dao = new DaoPersonImpl();
ResultSet rs = dao.get(sNum, eNum);
dao.strSplit(tbName, rs, sNum);
}
}
}