java将PDF转成字符串_【java】将PDF转成字符串

背景

我们在日常编程中,可能会遇到,无法直接传送PDF文件的情况,这就需要将PDF转成字符串。待接收方收到字符串再将字符串转成PDF文件。

代码

import java.io.BufferedInputStream;

import java.io.BufferedOutputStream;

import java.io.ByteArrayInputStream;

import java.io.ByteArrayOutputStream;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileOutputStream;

import sun.misc.BASE64Decoder;

import sun.misc.BASE64Encoder;

public class PdfToBinaryUtil {

static BASE64Encoder encoder = new BASE64Encoder();

static BASE64Decoder decoder = new BASE64Decoder();

public static void main(String[] args) {

String base64String = getPDFBinary("q.pdf");

System.out.println(base64String);

//FileTool.writeStringToFile(base64String, "1.txt");

//FileTool可参考https://blog..net/Kangyucheng/article/details/86981414

base64StringToPDF(base64String, "1.pdf");

}

public static String getPDFBinary(String filePath) {

File file = new File(filePath);

try {

FileInputStream fileInputStream = new FileInputStream(file);

BufferedInputStream bufferInputStream = new BufferedInputStream(fileInputStream);

ByteArrayOutputStream byteArrayOutputStream = new ByteArrayOutputStream();

BufferedOutputStream bout = new BufferedOutputStream(byteArrayOutputStream);

byte[] buffer = new byte[1024];

int len = bufferInputStream.read(buffer);

while (len != -1) {

bout.write(buffer, 0, len);

len = bufferInputStream.read(buffer);

}

bout.flush();

byte[] bytes = byteArrayOutputStream.toByteArray();

bufferInputStream.close();

return encoder.encodeBuffer(bytes).trim();

} catch (Exception e) {

e.printStackTrace();

}

return null;

}

public static void base64StringToPDF(String base64String, String newFile) {

try {

byte[] bytes = decoder.decodeBuffer(base64String);

ByteArrayInputStream bais = new ByteArrayInputStream(bytes);

BufferedInputStream bin = new BufferedInputStream(bais);

File file = new File(newFile);

FileOutputStream fout = new FileOutputStream(file);

BufferedOutputStream bout = new BufferedOutputStream(fout);

byte[] buffers = new byte[1024];

int len = bin.read(buffers);

while (len != -1) {

bout.write(buffers, 0, len);

len = bin.read(buffers);

}

bout.flush();

bout.close();

} catch (Exception e) {

e.printStackTrace();

}

}

}

输出:

节选最后几行

MDAwMDAgbg0KMDAwMDgwNDEyNSAwMDAwMCBuDQowMDAwODA0NDY1IDAwMDAwIG4NCjAwMDA4MDQ3

MzUgMDAwMDAgbg0KMDAwMDgwNDk2MyAwMDAwMCBuDQp0cmFpbGVyDQo8PC9TaXplIDQ4MC9Sb290

IDEgMCBSL0luZm8gODkgMCBSL0lEWzxGQkUzQUE2MUI2RDk2MDQwQTQwMTUwNjI0OEQ5RjY5Qj48

RkJFM0FBNjFCNkQ5NjA0MEE0MDE1MDYyNDhEOUY2OUI+XSA+Pg0Kc3RhcnR4cmVmDQo4MDYyNjAN

CiUlRU9GDQp4cmVmDQowIDANCnRyYWlsZXINCjw8L1NpemUgNDgwL1Jvb3QgMSAwIFIvSW5mbyA4

OSAwIFIvSURbPEZCRTNBQTYxQjZEOTYwNDBBNDAxNTA2MjQ4RDlGNjlCPjxGQkUzQUE2MUI2RDk2

MDQwQTQwMTUwNjI0OEQ5RjY5Qj5dIC9QcmV2IDgwNjI2MC9YUmVmU3RtIDgwNDk2Mz4+DQpzdGFy

dHhyZWYNCjgxNjAyMA0KJSVFT0Y=

你可以使用iText库将PDF文件换为字符串。具体来说,你需要使用`PdfTextExtractor`类的`getTextFromPage()`方法从PDF的每一页中提取文本,并将提取的文本连接起来。 以下是一个简单的示例代码: ``` import java.io.IOException; import com.itextpdf.kernel.pdf.PdfDocument; import com.itextpdf.kernel.pdf.PdfReader; import com.itextpdf.kernel.pdf.canvas.parser.listener.LocationTextExtractionStrategy; import com.itextpdf.kernel.pdf.canvas.parser.PdfTextExtractor; import com.itextpdf.kernel.pdf.canvas.parser.PdfCanvasProcessor; import com.itextpdf.kernel.geom.Rectangle; public class PdfToStringConverter { public static void main(String[] args) throws IOException { String inputFilePath = "input.pdf"; // 1. 创建PDF文件读取器 PdfReader reader = new PdfReader(inputFilePath); // 2. 创建PDF文档对象 PdfDocument pdfDoc = new PdfDocument(reader); // 3. 提取每一页的文本并连接起来 StringBuilder sb = new StringBuilder(); for (int i = 1; i <= pdfDoc.getNumberOfPages(); i++) { String text = PdfTextExtractor.getTextFromPage(pdfDoc.getPage(i)); sb.append(text); } // 4. 关闭PDF文档和读取器 pdfDoc.close(); reader.close(); // 5. 输出提取的文本 System.out.println(sb.toString()); } } ``` 在这个示例代码中,我们使用iText库的`PdfReader`类读取PDF文件,使用`PdfDocument`类创建PDF文档对象,并使用`PdfTextExtractor`类的`getTextFromPage()`方法从每一页中提取文本。我们将提取的文本连接起来并输出。请注意,这种方法提取的文本可能不会完全准确,因为PDF文件中的文本可能会被压缩、加密或使用非标准的字体和编码方式。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值