使用pdfbox读取和解析PDF文件,分页头(header),页内容(content),页尾(tail)

导入PDFbox的jar包,我是通过maven,fontbox是支持中文的字体
pom.xml

<dependency>
  <groupId>org.apache.pdfbox</groupId>
  <artifactId>pdfbox</artifactId>
  <version>2.0.4</version>
</dependency>

<dependency>
  <groupId>org.apache.pdfbox</groupId>
  <artifactId>fontbox</artifactId>
  <version>2.0.8</version>
</dependency>
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.TextPosition;

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;

public static void getTextFromPdf() throws IOException {
        String dest = "D:/test.pdf";

        PDDocument document = PDDocument.load(new File(dest));

        // 获取页码
        int pages = document.getNumberOfPages();
        System.out.println("总页:" + pages);

        PDFTextStripper2 stripper2 = new PDFTextStripper2();
        for (int i = 1; i <= pages; i++) {
            stripper2.setStartPage(i);
            stripper2.setEndPage(i);
            stripper2.getText(document);//读取当前页的全部内容

			//这里可以自己for循环处理,我为了过滤PDF page的头和页脚,直接读body
			//注意,body里面遇到表格,图片,会放到ls的最后面,方便处理
            List<List<TextPosition>> ll = stripper2.getCharactersByArticle();
//          List<TextPosition> ls = ll.get(0);//读取PDF page的header
            List<TextPosition> ls = ll.get(1);//读取pdf page的body内容
//          List<TextPosition> ls = ll.get(2);//读取PDF page的页码部分
            float y = 0;
            int buttom;//每行距离下面一行的距离
            StringBuffer sentence = new StringBuffer();
            for (TextPosition tp : ls) {
                String c = tp.getUnicode();

                //根据高度来判断是否是一句话
                if (y != tp.getY()) {
                    System.out.print(sentence.toString());

                    buttom = (int) (tp.getY() - y);
                    if (buttom > 11 || buttom < -10) {
                        System.out.println();
                    }
                    y = tp.getY();
                    sentence.setLength(0);
                }

                sentence.append(c);

                //特殊处理符号
                if (c.equals("•")) {
                    sentence.append(" ");
                }

                //遇到表格不打印出来
                if (sentence.toString().indexOf("表格 ") == 0 || sentence.toString().indexOf("Table ") == 0) {
                    break;
                }
            }
            if (sentence.length() > 0) {
                System.out.print(sentence.toString());
            }
        }

    }

PDFTextStripper2.java

//这个类是为了读取到TextPosition的数据
public class PDFTextStripper2 extends PDFTextStripper {

    public PDFTextStripper2() throws IOException {
    }

    @Override
    public List<List<TextPosition>> getCharactersByArticle() {
        return super.getCharactersByArticle();
    }
}
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
好的,我会为你提供一个使用 pdfbox 和 iText 生成 PDF 文件以及读取 PDF 文件内容的示例代码,同时支持中文。 生成 PDF 文件代码示例: ``` import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDPage; import org.apache.pdfbox.pdmodel.font.PDType0Font; import org.apache.pdfbox.pdmodel.graphics.image.JPEGFactory; import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject; import org.apache.pdfbox.pdmodel.edit.PDPageContentStream; import com.itextpdf.text.Document; import com.itextpdf.text.PageSize; import com.itextpdf.text.Paragraph; import com.itextpdf.text.pdf.BaseFont; import com.itextpdf.text.pdf.PdfContentByte; import com.itextpdf.text.pdf.PdfWriter; public class PDFGenerator { public static void main(String[] args) throws Exception { // 生成 pdfbox 生成的 PDF 文件 generatePdfByPdfbox(); // 生成 iText 生成的 PDF 文件 generatePdfByItext(); } private static void generatePdfByPdfbox() throws Exception { // 创建一个 PDF 文档 PDDocument document = new PDDocument(); PDPage page = new PDPage(); document.addPage(page); // 创建一个字体对象 PDType0Font font = PDType0Font.load(document, PDFGenerator.class.getClassLoader().getResourceAsStream("FZXBSJW.TTF")); // 创建一个 ContentStream 对象 PDPageContentStream contentStream = new PDPageContentStream(document, page); // 添加文字 contentStream.setFont(font, 12); contentStream.beginText(); contentStream.newLineAtOffset(100, 700); contentStream.showText("Hello, PDFBox!"); contentStream.endText(); // 添加图片 PDImageXObject image = JPEGFactory.createFromStream(document, PDFGenerator.class.getClassLoader().getResourceAsStream("example.jpg")); contentStream.drawImage(image, 100, 500, 300, 200); // 关闭 ContentStream 对象 contentStream.close(); // 保存 PDF 文件 File file = new File("pdfbox.pdf"); document.save(file); document.close(); } private static void generatePdfByItext() throws Exception { // 创建一个 iText 文档 Document document = new Document(PageSize.A4, 50, 50, 50, 50); // 创建一个字体对象 BaseFont font = BaseFont.createFont(PDFGenerator.class.getClassLoader().getResource("FZXBSJW.TTF").getPath(), BaseFont.IDENTITY_H, BaseFont.EMBEDDED); // 创建一个 Writer 对象 PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream("itext.pdf")); // 打开文档 document.open(); // 添加文字 Paragraph paragraph = new Paragraph("Hello, iText!", new com.itextpdf.text.Font(font, 12)); document.add(paragraph); // 添加图片 PdfContentByte cb = writer.getDirectContent(); com.itextpdf.text.Image image = com.itextpdf.text.Image.getInstance(PDFGenerator.class.getClassLoader().getResource("example.jpg")); image.scaleToFit(300, 200); image.setAbsolutePosition(100, 500); cb.addImage(image); // 关闭文档 document.close(); } } ``` 读取 PDF 文件内容代码示例: ``` import java.io.File; import java.io.IOException; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.text.pdf.parser.PdfTextExtractor; public class PDFReader { public static void main(String[] args) throws Exception { // 读取 pdfbox 生成的 PDF 文件 readPdfByPdfbox(); // 读取 iText 生成的 PDF 文件 readPdfByItext(); } private static void readPdfByPdfbox() throws Exception { File file = new File("pdfbox.pdf"); PDDocument document = PDDocument.load(file); PDFTextStripper stripper = new PDFTextStripper(); String content = stripper.getText(document); System.out.println(content); document.close(); } private static void readPdfByItext() throws Exception { File file = new File("itext.pdf"); PdfReader reader = new PdfReader(file.getPath()); String content = PdfTextExtractor.getTextFromPage(reader, 1); System.out.println(content); reader.close(); } } ``` 这样,你就可以使用 pdfbox 和 iText 生成和读取 PDF 文件了。注意:在生成 PDF 文件时,需要引入相应的字体文件,否则中文可能无法正确显示。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值