java提取pdf题目_java – 从pdf文件中提取文本

本文档提供了一段Java代码示例,用于从PDF文件中提取文本。代码使用了iText库,但在运行时遇到了构造函数`PdfTextExtractor`未定义的错误。解决方案是调用静态方法`PDFTextExtractor.getTextFromPage(reader, pageNumber)`来提取文本。" 107699082,8765096,Vue应用的vue-cute-modal模态组件,"['Vue', '前端开发', '组件库']
摘要由CSDN通过智能技术生成

我需要从pdf文件中提取文字(逐字逐句).

import java.io.*;

import com.itextpdf.text.*;

import com.itextpdf.text.pdf.*;

import com.itextpdf.text.pdf.parser.*;

public class pdf {

private static String INPUTFILE = "http://ontology.buffalo.edu/ontology%28PIC%29.pdf" ;

private static String OUTPUTFILE = "c:/new3.pdf";

public static void main(String[] args) throws DocumentException,

IOException {

Document document = new Document();

PdfWriter writer = PdfWriter.getInstance(document,

new FileOutputStream(OUTPUTFILE));

document.open();

PdfReader reader = new PdfReader(INPUTFILE);

int n = reader.getNumberOfPages();

PdfImportedPage page;

// Go through all pages

for (int i = 1; i <= n; i++) {

page = writer.getImportedPage(reader, i);

System.out.println(i);

Image instance = Image.getInstance(page);

document.add(instance);

}

document.close();

PdfReader readerN = new PdfReader(OUTPUTFILE);

PdfTextExtractor parse = new PdfTextExtractor();

for (int i = 1; i <= n; i++)

System.out.println(parser.getTextFromPage(reader,i));

}

当我编译代码时,我有这个错误:

the constructor PdfTextExtractor is undefined

我该如何解决?

解决方法:

PDFTextExtractor只包含静态方法,构造函数是私有的. itext

你可以像这样调用它:

String myLine = PDFTextExtractor.getTextFromPage(reader,pageNumber)

标签:java,parsing,pdf,itext

来源: https://codeday.me/bug/20190526/1157775.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值