使用commons-net包处理大数据量FTP下载

原创 2013年08月21日 16:30:48

以前用过Apache commons-net包做过FTP的上传下载,但涉及数据量并不大,所以都是采用很普通的方式。比如在做FTP下载时,一般采用这样的方式:

FTPFile [] rmtFiles = ftpClient.listFiles();
for(FTPFile ftpFile : rmtFiles) {
	OutputStream os = null;
	try {
		os = new FileOutputStream(locPath + "/" + ftpFile.getName());
		ftpClient.retrieveFile(ftpFile.getName(), os);
	} catch (Exception e) {
		LOGGER.error(e);
	} finally {
		os.close();
	}
}

最近在做FTP下载时遇到了问题,因为这次FTP服务器上的文件会有很多(可能是百万或者千万级别),再像上面那样做有时候会有问题了,因为ftpClient.listFiles()方法会耗时很久,我试过一次,FTP服务器上平铺了7170个文件,这个方法返回大约需要数秒(10秒内),如果文件数量再增加的话估计很快就会有问题了;另一方面listFiles方法返回的FTPFile数组也会吃掉很大一部分内存。

所以上面的方法不可行了。

这里有一篇文章提到了大数据量FTP下载:http://blog.csdn.net/dyllove98/article/details/7488780

可惜作者只给出了想法,并没有说具体咋做。于是自己想办法实现了,只是不知道实现地好不好。

解决方法需要用到FTP协议的NLST命令,这个命令说明如下:

NLST命令 
格式:NLST <directory> 
功能:返回指定路径下的目录列表,省略<路径>时,返回当前目录。

该命令就是列出给定目录下所有的文件,如果没有指定目录,则返回当前目录下所有的文件名。

那么对于大数据量的FTP下载 来说,思路就是通过这条命令将所有的文件名保存到本地,然后再分析该文件,挨个将文件下载下来。这样不再一次性将文件信息列出到内存中,即可以缩短处理时间,又不会消耗太多内存,所以可以解决上面提到的问题。

我采用的方式是自己实现一个FTPClient继承自commons-net中的FTPClient,然后调用FTPClient中的方法发送NLST命令,得到Socket对象并获取输入流,最后将内容写出到本地文件中。至于后面如何分析该文件并完成下载,那就很简单了,这里不去说明。

代码:

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.Socket;
import java.net.SocketException;

import org.apache.commons.io.IOUtils;
import org.apache.commons.net.ftp.FTPClient;
import org.apache.commons.net.ftp.FTPCmd;
import org.apache.log4j.Logger;

public class MyFTPClient extends FTPClient {
	private static final Logger LOGGER = Logger.getLogger(MyFTPClient.class);
	
	public boolean listFilenameToLocalFile(File local) throws IOException {
		return listFilenameToLocalFile(null, local);
	}
	
	public boolean listFilenameToLocalFile(String remote, File local) throws IOException {
		if (null != remote) {
			boolean chRes = changeWorkingDirectory(FTPUtil.gbk2ascii(remote));
			if (!chRes) {
				LOGGER.info("the remote path on ftp server maybe is incorrect.[" + remote + "]");
				return false;
			}
		}
                // 获取发送NLST命令时建立的Socket连接
		Socket socket = _openDataConnection_(FTPCmd.NLST.getCommand(), null);
		
		if (socket == null) {
			return false;
		}
		// 获取Socket输入流
		InputStream is = socket.getInputStream();
		
		try {
                        // 写出到本地文件
			return writeToFile(is, local);
		} catch (Exception e) {
			e.printStackTrace();
		} finally {
			IOUtils.closeQuietly(is);
			IOUtils.closeQuietly(socket);
		}
		return false;
	}
	
	private boolean writeToFile(InputStream is, File local) {
		BufferedWriter bw = null;
		BufferedReader br = null;
		
		String line;
		try {
			bw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(local)));
			br = new BufferedReader(new InputStreamReader(is, "UTF-8"));
			while((line = br.readLine()) != null) {
				bw.write(line);
				bw.newLine();
			}
			bw.flush();
			return true;
		} catch (IOException e) {
			LOGGER.error("列出FTP服务器文件过程中, 在写出文件时出现异常.", e);
			return false;
		} finally {
			IOUtils.closeQuietly(bw);
			IOUtils.closeQuietly(br);
		}
	}
}



版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

java中判断文件是否为空内容

在File类中并没有提供判断文件是否为空的方法,但可以借助length()方法的返回值进行判断。 如果文件不存在或文件为空时,length()方法返回0。 File file = new Fi...
  • H12KJGJ
  • H12KJGJ
  • 2017年04月13日 04:55
  • 1027

jquery实现复选框(checkbox)的全选与反选

介绍一下jquery实现checkbox的全选与反选

.net 下的AJAX大数据量处理

  • 2011年08月29日 11:29
  • 30KB
  • 下载

asp.net2.0 大数据量分页

  • 2008年08月28日 14:31
  • 1.03MB
  • 下载

C#使用NPOI处理大数据量EXCEl2007

日常在做项目的时候,往往不能单单使用web系统,往往要结合第三方办公软件共同来完成相关的任务,比如excel,但是excel2003和excel2007有很大的不同, excel2003只能存储65...

高并发处理.大数据量

  • 2013年07月24日 10:43
  • 15KB
  • 下载

浅谈使用ArcPy执行大数据量处理任务

Python功能强大而易于学习。对于ArcGIS for Desktop用户来讲,Python是提高工作效率的不二选择。 Arcpy是esri提供的用于高效数据处理分析、制图等的Python站点包。 ...

mysql如何处理大数据量的查询

  • 2013年03月26日 11:15
  • 79KB
  • 下载

AJAX大数据量处理

  • 2011年10月26日 12:29
  • 36KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:使用commons-net包处理大数据量FTP下载
举报原因:
原因补充:

(最多只允许输入30个字)