如何截取PDF内容为图片

说明:本文介绍 Java 中,如何去截取 PDF 中的内容,转为一张图片

场景

如下,该 PDF 结构分两部分,一部分个人信息,一部分内容信息,我希望截取其中的内容信息,截取成一张图片。

在这里插入图片描述

实现

首先,在生成该 PDF 的模板文件中,需要截取的部分(内容信息)前后,加入截取点,字体设置为白色,这样截取点内容看不出来

在这里插入图片描述

编写代码,找到 PDF 中截取点文本内容的位置,获取坐标,并计算

import com.hezy.pojo.TextPositionWithDTO;
import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.TextPosition;
import org.springframework.stereotype.Component;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;
import java.io.StringWriter;
import java.util.List;

/**
 * PDF裁剪图片处理器
 */
@Component
@Slf4j
public class PDFCutToImageExtractor {

    /**
     * 开始截取点
     */
    private static final String START_POINT = "cut-start";

    /**
     * 结束截取点
     */
    private static final String END_POINT = "cut-end";

    /**
     * 外边距
     */
    private static final int MARGIN = 20;

    /**
     * 提取PDF文件中范围的图片
     *
     * @param file PDF文件
     * @return 图片字节数组
     * @throws IOException
     */
    public byte[] extractImage(File file) throws IOException {
        try (PDDocument document = PDDocument.load(file)) {
            // 1.获取文本位置
            PDFRenderer renderer = new PDFRenderer(document);
            // 开始和结束位置
            TextPositionWithDTO startPos = findTextPosition(document, START_POINT);
            TextPositionWithDTO endPos = findTextPosition(document, END_POINT);

            // 查询判断(截取点是手动放到模板中的,不可能找不到,但还是判断一下)
            if (startPos == null) {
                return null;
            }
            if (endPos == null) {
                return null;
            }

            // 获取截取点坐标
            float startY = startPos.getTextPosition().getY();
            float endY = endPos.getTextPosition().getY();
            log.info("截取点坐标:startY={}, endY={}", startY, endY);

            // 2.渲染图像,计算截取位置
            BufferedImage pageImage = renderer.renderImageWithDPI(startPos.getPageIndex(), 144);
            // 定义缩放,这个是按照上一行代码中设置的dpi来计算的,144/72=2
            int scale = 2;
            // 左上角坐标 = 起始截取点的x、y坐标
            float startX = startPos.getTextPosition().getX();
            int imgStartX = Math.round(startX * scale) - MARGIN;
            int imgStartY = Math.round(startY * scale);

            // 图片宽度 = 页宽 - 起始点x坐标
            int width = pageImage.getWidth() - imgStartX;

            // 图片高度 = 两截取点高度差
            int height = Math.round(Math.abs(startY - endY) * scale) - MARGIN;

            // 判断是否计算有误
            if (width <= 0 || height <= 0 || imgStartX < 0 || imgStartY < 0) {
                return null;
            }

            // 3.裁剪图像,将截取后的图像文件写入到新的文件流中,返回字节数组
            log.info("imgStartX: {}, imgStartY: {}, width: {}, height: {}", imgStartX, imgStartY, width, height);
            BufferedImage croppedImage = pageImage.getSubimage(imgStartX, imgStartY, width, height);
            ByteArrayOutputStream bos = new ByteArrayOutputStream();
            try {
                ImageIO.write(croppedImage, "png", bos);
                return bos.toByteArray();
            } catch (IOException e) {
                log.warn("写入失败: {}", e.getMessage());
                return null;
            }
        }
    }

    /**
     * 查询文本位置
     * 作用:该方法的作用是根据传入的文本关键字查询文本在文档中所在的位置
     *
     * @param document   PDF文档
     * @param searchText 要查询的文本
     * @return 文本位置DTO
     * @throws IOException
     */
    private TextPositionWithDTO findTextPosition(PDDocument document, String searchText) throws IOException {

        /**
         * 内部类:继承PDFTextStripper,提取PDF文档中的文本内容
         */
        class MyTextStripper extends PDFTextStripper {

            /**
             * 找到的文本位置
             */
            private TextPosition foundPosition = null;

            public MyTextStripper() throws IOException {
                super();
            }

            @Override
            protected void writeString(String text, List<TextPosition> textPositions) {
                // 文本位置,不为空,说明已经找到了,直接返回
                if (foundPosition != null) {
                    return;
                }

                // 拿到PDF文档中的文本内容
                StringBuilder stringBuilder = new StringBuilder();
                for (TextPosition pos : textPositions) {
                    String unicode = pos.getUnicode();
                    if (unicode != null) {
                        stringBuilder.append(unicode);
                    }
                }
                String segmentText = stringBuilder.toString();

                // 用传入的文本与PDF文档中的文本来匹配,indexOf()方法是精髓
                int index = segmentText.indexOf(searchText);
                // 大于等于0,说明文档中有匹配到的文本
                if (index >= 0) {
                    int charCount = 0;
                    for (TextPosition pos : textPositions) {
                        String unicode = pos.getUnicode();
                        if (unicode == null) {
                            continue;
                        }
                        if (charCount == index) {
                            foundPosition = pos;
                            return;
                        }
                        charCount++;
                    }
                }
            }

            public TextPosition getResult() {
                return foundPosition;
            }
        }

        // 遍历每一页
        int totalPages = document.getNumberOfPages();
        for (int pageIndex = 0; pageIndex < totalPages; pageIndex++) {
            MyTextStripper stripper = new MyTextStripper();
            stripper.setStartPage(pageIndex + 1);
            stripper.setEndPage(pageIndex + 1);

            // 处理当前页
            stripper.writeText(document, new StringWriter());
            TextPosition result = stripper.getResult();
            if (result != null) {
                return new TextPositionWithDTO(result, pageIndex);
            }
        }
        return null;
    }
}

注意以下两点:

  • PDF 文本坐标(TextPosition),是以文件左下角为原点的,越靠右x越大,越靠上y越大;

  • pageImage.getSubimage()方法,四个参数定义截取的矩形范围,前两个参数定义矩形左上角坐标,后两个参数定义矩形的宽和高

(源码说明)

在这里插入图片描述

TextPositionWithDTO 对象

import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
import org.apache.pdfbox.text.TextPosition;

import java.io.Serializable;

/**
 * 文本位置DTO
 */
@Data
@AllArgsConstructor
@NoArgsConstructor
public class TextPositionWithDTO implements Serializable {

    /**
     * 文本位置
     */
    private TextPosition textPosition;

    /**
     * 文本位置所在的页码
     */
    private int pageIndex;
}

controller,写一个接口,先获取 PDF 文件,再截取其中的图片

    @PostMapping("/pdf2")
    public byte[] pdf2() throws IOException {
        // 1.获取PDF
        byte[] pdf = pdfService.pdf();

        // 2.将PDF写入到本地临时文件夹中
        File pdfFile = FileUtil.createTempFile("demo", ".pdf", null, true);
        FileUtil.writeBytes(pdf, pdfFile);

        // 3.构建响应
        String fileName = "截取图片.png";
        String encodedFileName = URLEncoder.encode(fileName, StandardCharsets.UTF_8);
        HttpHeaders headers = new HttpHeaders();
        headers.setContentType(MediaType.APPLICATION_OCTET_STREAM);
        headers.setContentDispositionFormData("attachment", encodedFileName);

        // 4.截取图片,获取图片的字节数组
        byte[] image = pdfCutToImageExtractor.extractImage(pdfFile);
        
        // 5.删除临时存储的PDF文件
        FileUtil.del(pdfFile);

        // 6.返回
        return ResponseEntity.ok()
                .headers(headers)
                .body(image).getBody();
    }

以上代码引入的 pom.xml 文件内容如下:

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <parent>
        <groupId>org.springframework.boot</groupId>
        <artifactId>spring-boot-starter-parent</artifactId>
        <version>2.7.12</version>
        <relativePath/>
    </parent>

    <groupId>com.hezy</groupId>
    <artifactId>pdf_demo</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    </properties>

    <dependencies>
        <!-- web依赖,用调用接口的方式来测试 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <!-- 生成pdf依赖 -->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-thymeleaf</artifactId>
        </dependency>
        <dependency>
            <groupId>com.github.jhonnymertz</groupId>
            <artifactId>java-wkhtmltopdf-wrapper</artifactId>
            <version>1.3.1-RELEASE</version>
        </dependency>

        <!-- lombok依赖 -->
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
        </dependency>

        <!-- PDF截取依赖 -->
        <dependency>
            <groupId>org.apache.pdfbox</groupId>
            <artifactId>pdfbox</artifactId>
            <version>2.0.27</version>
        </dependency>

        <!-- 工具类 -->
        <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-all</artifactId>
            <version>5.8.6</version>
        </dependency>
    </dependencies>

    <!-- 编译插件,定义编译语言,后面用于构建PDF文件byte[],返回给前端 -->
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <configuration>
                    <source>17</source>
                    <target>17</target>
                </configuration>
            </plugin>
        </plugins>
    </build>
</project>

关于如何生成 PDF 文件,参看前文:


启动,测试,先来看看生成的 PDF 文件,没有影响,看不出“内容信息”前后的截取点文本

在这里插入图片描述

但是,复制空白处,还是可以粘贴出来的

在这里插入图片描述

看看截取图片效果,几乎完美,把“内容信息”部分的文本内容完全截取出来了。

在这里插入图片描述

总结

以上是我自己思考的一种将 PDF 文件中某部分内容截取成图片的方案。

这种方法是可以根据填充的内容多少动态适应,但如果你截取的内容位置是固定的,就更好办了,直接在下面这个截取方法里写死范围

BufferedImage croppedImage = pageImage.getSubimage(imgStartX, imgStartY, width, height);

另外,还需要考虑截取内容跨页的情况,涉及跨页,以上代码可能需要调整。

在C#中,你可以使用一些第三方库如iTextSharp、PDFsharp或者是PDFBox等来处理PDF文件并截取特定位置的图片。以下是使用iTextSharp的一个简单示例: 首先,你需要安装iTextSharp库,可以使用NuGet包管理器添加`iTextSharp.text`和`iTextSharp.image`两个依赖。 ```csharp using iTextSharp.text; using iTextSharp.text.pdf; using System.IO; public byte[] ExtractImageFromPdf(string pdfPath, float x, float y, float width, float height) { // 创建PdfReader实例 using (var reader = new PdfReader(pdfPath)) { // 获取页面数 var pageCount = reader.NumberOfPages; // 确保坐标在有效范围内 if (pageCount == 0 || x < 0 || y < 0 || width <= 0 || height <= 0) return null; int page = GetPageNumberAtPosition(reader, x, y); // 获取包含目标位置的页码 // 如果找到页面 if (page >= 0) { // 使用PdfCopy将PDF内容复制到新的文档 var outputDir = Path.Combine(Path.GetDirectoryName(pdfPath), "ExtractedImage"); if (!Directory.Exists(outputDir)) Directory.CreateDirectory(outputDir); string outputPath = Path.Combine(outputDir, $"image_{page}.png"); using (var copy = new PdfCopy(new FileStream(outputPath, FileMode.Create), Console.OpenStandardError)) { // 设置缩放比例 var factor = Math.Min(width / reader.GetPageSizeWithRotation(page).Width, height / reader.GetPageSizeWithRotation(page).Height); copy.CopyPage(page, 0, new Rectangle(0, 0, reader.GetPageSizeWithRotation(page).Width * factor, reader.GetPageSizeWithRotation(page).Height * factor)); // 检查图像是否存在并获取其位置 var imagePosition = GetImagePositionInPage(reader, page, x, y); if (imagePosition != null) { using (var imgStream = copy.GetUnderlyingStream(copy.Pages[(int)imagePosition.Item1])) { // 截取并保存图片 return ReadImage(imgStream, (int)imagePosition.Item2, (int)imagePosition.Item3, (int)imagePosition.Item4); } } } } return null; // 图片未找到 } } private int GetPageNumberAtPosition(PdfReader reader, float x, float y) { for (int i = 0; i < reader.NumberOfPages; i++) { var position = GetImagePositionInPage(reader, i, x, y); if (position != null) return i; } return -1; } private Tuple<int, int, int, int> GetImagePositionInPage(PdfReader reader, int page, float x, float y) { // 这里通常会使用复杂的方法,比如PDFBox的PDFBox工具,或者直接解析PDF元数据来定位图片的位置 // 由于这个操作涉及到PDF结构解析,这里假设它已通过其他途径得到 // 实际应用中可能需要遍历PDF的文本流,查找嵌入的图片,或检查页面对象的资源树 throw new NotImplementedException("实际的PDF解析部分需要你自己实现"); } private byte[] ReadImage(Stream inputStream, int left, int top, int width, int height) { using (var ms = new MemoryStream()) { inputStream.CopyTo(ms); ms.Seek(0, SeekOrigin.Begin); return ms.ToArray(); } } ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

何中应

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值