java 文件流 base64_原生java http方式上传大文件(含文件流分段上传问题、base64分段转码问题解决思路)...

最新推荐文章于 2025-10-20 08:35:55 发布

原创

最新推荐文章于 2025-10-20 08:35:55 发布 · 2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#java 文件流 base64

本文介绍了在Java中通过HTTP上传大文件时遇到的内存溢出问题及其解决方法，主要涉及到文件流分段上传和Base64编码问题。通过设置HttpURLConnection的分块流模式解决内存溢出，并详细分析了Base64编码原理，解释了分段编码导致结果不一致的原因。最后提出使用3的公倍数作为缓冲区大小以及处理文件尾部有效字节数的方法，确保正确完成大文件的Base64分段编码和上传。

做项目的过程中碰到一个需求：

在java客户端，使用http通信，把客户端的本地文件通过http发送上传到服务器；

请求格式是xml(不管是json还是xml都是字符串，所以这个无所谓)，中间包含[文件流字符串]；

之前的做法是，把文件流通过base64编码转换为base64Byte，然后和其它字符串信息放到一起，post的时候通过HttpURLConnection的write方法写入到服务器中去，这个上传的过程就完成了。

——————————

但是碰到一个问题，当文件体积较大时，从文件流转换成base64Byte后，体积会很大，可能会导致OOM；

(以二进制流的方式保存，体积最小；以byte数组的方式保存，体积会相对变大一些；以String形式保存，体积最大；)

出错原因是：

FileInputStream fis = new FileInputStream(file); //这一步打开了一个对准file准备进行读取的文件指针，但是还没有开始读写，file的相关数据没有从本地加载到内存中来；所以即使file的体积有10G那么大，这一步也是不会OOM的

//把文件流转换为字节数组

byte[] fileBytes;

ByteArrayOutputStream baos = new ByteArrayOutputStream();

byte[] byteBuf = new byte[1024];

int count;

while((count=fis.read(buf))!=-1)

{

baos.write(buf,0,count); //实际上，如果文件体积比较大的话，不用转码，在这一步就可能OOM了

}

fileBytes= baos.toByteArray();

byte[] base64Bytes = Base64.encodeBase64(fileBytes); //在这一步也可能OOM

(文件转换为byte[]时，是有可能OOM的；而转换为base64Bytes后，体积会增大1/3，所以有可能前一步没有OOM，却在这一步出现OOM；

为什么转码后体积会增大1/3，后面我会解释)

——————————

解决方法

既然file在本地没有加载到内存来的时候不会出现内存溢出的情况，我就想到了一个解决的方法：分段上传

(加大内存并不能从根本上解决内存溢出的问题，问题的根本原因不是内存不够大，而是代码有问题)

在本地的file通过HttpURLConnection的getOutputStream()进行write时，不是一次性全部写入，而是循环配合flush进行写入：

FileInputStream fis = new FileInputStream(file);

byte[] buf = new byte[1024];

int count;

while((count = fis.read(buf)) != -1)

{

os.write(Base64.encodeBase64(buf), 0, count);

os.flush();

}

(我从本地读1024字节，然后马上上传到服务器，清空本地缓存，然后再从本地读1024字节，这样循环读取，即使文件有20G，理论上也不有OOM问题出现，因为我从本地文件中读到的数据不会在内存中驻留)

——————————

解决问题的思路对了，但是出现了其他的细节问题

os.write(Base64.encodeBase64(buf), 0, count); //这一行代码报错了，出现了OOM

我搜集了一下资料，发现原因是：

HttpURLConnection的getOutputStream的实际对象是sun.net.www.http.PosterOutputStream，这个对象的flush方法代码是空的，write配合flush，并没有达到即时上传数据的效果。PosterOutputStream其实是自己在本地维护了一个缓冲区，你通过write写入的数据其实还是在这个本地的缓冲区里，只有当你getInputStream后，HttpURLConnection