java pdfbox 提取pdf 标题_java – 使用pdfbox从PDF文件中提取文本

本文介绍如何在Java应用程序中使用PDFBox库从PDF文件中提取文本。通过Jsoup下载PDF后,利用PDDocument加载并使用PDFTextStripper获取文本内容。在遇到问题时,经过讨论和调整,最终成功提取了PDF文本。
摘要由CSDN通过智能技术生成

我试图使用pdfbox从PDF文件中提取文本,但不是作为命令行工具,而是在我的

Java应用程序中.我正在使用jsoup下载pdf.

res = Jsoup

.connect(host+action)

.ignoreContentType(true)

.data(data)

.cookies(cookies)

.method(Method.POST)

.timeout(20*1000)

.execute();

// prepare document

InputStream is = new ByteArrayInputStream(res.bodyAsBytes());

PDDocument pdf = new PDDocument();

pdf.load(is,true);

// extract text

PDFTextStripper stripper = new PDFTextStripper();

String text = stripper.getText(pdf);

// print extracted text

System.out.println(text);

此代码仅打印空行.当我这样做:

System.out.println(res.body());

它打印pdf文件输出如下:

%PDF-1.4

%����

6 0 obj

<<

/Filter /FlateDecode

/Length 1869

>>

stream

x��X�n��

<<

/Size 28

/Info 27 0 R

/Root 26 0 R

>>

startxref

20632

%%EOF

所以我确信pdf正确下载 – 只是这个PDF剥离器不起作用……

———————————————-编辑

@WeloSefer写道:

maybe 07001 can help you get started … I have never worked with jsoup nor pdfbox so I am no help but I sure will try pdfbox since I’ve been testing itextpdf reader for extracting texts.

OP写道:

Thanks, that is what I was looking for – it works now 🙂

this problem is solved – working code is here 07002

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值