项目场景:
根据指定的资源URL将该资源下载保存到指定路径
问题描述:
用浏览器访问资源URL可直接将该资源下载下来,并且文件里面的内容也是想要的,文件打开如下图:
用代码来下载该文件时,文件可以成功下载,但是文件里面的内容不是想要的,文件打开如下图:
下载文件的代码如下:
package com.ue.util;
import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.List;
import java.util.Map;
public class Test {
public static void main(String[] args) {
try {
String downLoadPath = "http://jkpj-qlc-web.guahao.cn/upload/bill/2020-09-21/25be4c71-e08e-4c0d-a3c5-451e7cee754b.csv";
String savePath = "D:/data/file";
downLoadFileFromUrl(downLoadPath, savePath);
} catch (Exception e) {
e.printStackTrace();
}
}
/**
* 从网络URL中下载文件
* @Author LJ
* @Date 2020/10/16
* @Time 10:32
* @param urlStr
* @param savePath
* @return void
*/
public static void downLoadFileFromUrl(String urlStr, String savePath) throws Exception {
URL url = new URL(urlStr);
HttpURLConnection conn = (HttpURLConnection) url.openConnection();
//设置超时时间为3秒
conn.setConnectTimeout(3 * 1000);
//防止屏蔽程序抓取而返回403错误
conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//得到输入流
InputStream inputStream = conn.getInputStream();
//获取自己的数组
byte[] getData = readInputStream(inputStream);
//文件保存位置
File saveDir = new File(savePath);
if (!saveDir.exists()) {
saveDir.mkdirs();
}
//拿到URL里的文件名
String fileName = urlStr.substring(urlStr.lastIndexOf("/") + 1, urlStr.length());
File file = new File(saveDir + File.separator + fileName);
FileOutputStream fos = new FileOutputStream(file);
fos.write(getData);
if (fos != null) {
fos.close();
}
if (inputStream != null) {
inputStream.close();
}
System.out.println(url + " download success");
}
/**
* 从输入流中获取字节数组
* @Author LJ
* @Date 2020/10/16
* @Time 10:31
* @param inputStream
* @return byte[]
*/
public static byte[] readInputStream(InputStream inputStream) throws IOException {
byte[] buffer = new byte[1024];
int len = 0;
ByteArrayOutputStream bos = new ByteArrayOutputStream();
while ((len = inputStream.read(buffer)) != -1) {
bos.write(buffer, 0, len);
}
bos.close();
return bos.toByteArray();
}
}
原因分析:
对http状态码301和302的解释:
301(永久性转移)和302(暂时性转移)状态码都表示重定向,就是说浏览器在拿到服务器返回的这个状态码后会自动跳转到一个新的URL地址,这个地址可以从响应的Location首部中获取(用户看到的效果就是他输入的地址A瞬间变成了另一个地址B)——这是它们的共同点。他们的不同在于,301表示旧地址A的资源已经被永久地移除了(这个资源不可访问了),搜索引擎在抓取新内容的同时也会将旧的网址换为重定向之后的网址;302表示旧地址A的资源还在(仍然可以访问),这个重定向只是临时地从旧地址A跳转到地址B,搜索引擎会抓取新的内容而保存旧的网址
综上,出现这种问题一般是由nginx这类服务器重新定向导致的
解决方案:
对nginx重新定向进行重新实例化URL对象操作,也就是先拿到Location里的地址,再进行下载
所有代码如下:
package com.ue.util;
import java.io.*;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.List;
import java.util.Map;
public class Test {
public static void main(String[] args) {
try {
String downLoadPath = "http://jkpj-qlc-web.guahao.cn/upload/bill/2020-09-21/25be4c71-e08e-4c0d-a3c5-451e7cee754b.csv";
String savePath = "D:/data/file";
downLoadFileFromUrl(downLoadPath, savePath);
} catch (Exception e) {
e.printStackTrace();
}
}
/**
* 从网络URL中下载文件
* @Author LJ
* @Date 2020/10/16
* @Time 10:32
* @param urlStr
* @param savePath
* @return void
*/
public static void downLoadFileFromUrl(String urlStr, String savePath) throws Exception {
URL url = new URL(urlStr);
HttpURLConnection conn = (HttpURLConnection) url.openConnection();
//设置超时时间为3秒
conn.setConnectTimeout(3 * 1000);
//防止屏蔽程序抓取而返回403错误
conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
String newUrl = urlStr;
Map<String, List<String>> map = conn.getHeaderFields();
//遍历所有的响应头字段
for (String key : map.keySet()) {
System.out.println(key + "--->" + map.get(key).get(0));
if ("Location".equals(key)) {
//获取新地址
newUrl = map.get(key).get(0);
System.out.println("newUrl--->" + newUrl);
break;
}
}
//重新实例化url对象
url = new URL(newUrl);
//重新打开和URL之间的连接
conn = (HttpURLConnection) url.openConnection();
//得到输入流
InputStream inputStream = conn.getInputStream();
//获取自己的数组
byte[] getData = readInputStream(inputStream);
//文件保存位置
File saveDir = new File(savePath);
if (!saveDir.exists()) {
saveDir.mkdirs();
}
//拿到URL里的文件名
String fileName = urlStr.substring(urlStr.lastIndexOf("/") + 1, urlStr.length());
File file = new File(saveDir + File.separator + fileName);
FileOutputStream fos = new FileOutputStream(file);
fos.write(getData);
if (fos != null) {
fos.close();
}
if (inputStream != null) {
inputStream.close();
}
System.out.println(url + " download success");
}
/**
* 从输入流中获取字节数组
* @Author LJ
* @Date 2020/10/16
* @Time 10:31
* @param inputStream
* @return byte[]
*/
public static byte[] readInputStream(InputStream inputStream) throws IOException {
byte[] buffer = new byte[1024];
int len = 0;
ByteArrayOutputStream bos = new ByteArrayOutputStream();
while ((len = inputStream.read(buffer)) != -1) {
bos.write(buffer, 0, len);
}
bos.close();
return bos.toByteArray();
}
}