用Spire.PDF提取PDF里的PNG图片

用Nuget抓取类库,FreeSpire.PDF就可以

代码如下 , 亲测可以抓取PNG图形,即使原图是JPG,也会存成PNG格式输出:

//加载PDF文档
            PdfDocument doc = new PdfDocument();
            doc.LoadFromFile(file);

            List<Image> listImages = new List<Image>();

            for (int i = 0; i < doc.Pages.Count; i++)
            {
                // 实例化一个Spire.Pdf.PdfPageBase对象
                PdfPageBase page = doc.Pages[i];

                // 获取所有pages里面的图片
                Image[] images = page.ExtractImages();
                if (images != null && images.Length > 0)
                {
                    listImages.AddRange(images);
                }

            }

            // 将提取到的图片保存到本地路径
            if (listImages.Count > 0)
            {
                for (int i = 0; i < listImages.Count; i++)
                {
                    Image image = listImages[i];
                    image.Save("image" + (i + 1).ToString() + ".png", System.Drawing.Imaging.ImageFormat.Png);
                }

            }

  顺便贴下读取文本的代码:

 //实例化一个PdfDocument对象
            PdfDocument doc = new PdfDocument();

            //加载PDF文档
            doc.LoadFromFile(file);

            //实例化一个StringBuilder 对象
            StringBuilder content = new StringBuilder();

            //提取PDF所有页面的文本
            foreach (PdfPageBase page in doc.Pages)
            {
                content.Append(page.ExtractText());
            }

            //将提取到的文本写为.txt格式并保存到本地路径
            String fileName = "获取文本.txt";
            File.WriteAllText(fileName, content.ToString());

  

转载于:https://www.cnblogs.com/ccjungle/p/11587618.html

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
读取PDF文件中的信息 package com.zht; import java.io.File; import java.io.UnsupportedEncodingException; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.SQLException; import java.util.ArrayList; import java.util.List; import com.spire.pdf.PdfDocument; import com.spire.pdf.PdfPageBase; public class ReadPDF { public static void main(String[] args) { //需要复制的目标文件或目标文件夹 String pathname = "F:\\读取PDF中的信息"; // File file = new File(pathname); List list = new ArrayList(); readFile(pathname,list); for(int j=0;j<list.size();j++) { // System.out.println("当前第"+(j+1)+"个----"+list.get(j)); //创建PdfDocument实例 PdfDocument doc = new PdfDocument(); //加载PDF文件 doc.loadFromFile(list.get(j)); StringBuilder sb = new StringBuilder(); PdfPageBase page; //遍历PDF页面,获取文本 for (int i = 0; i < doc.getPages().getCount(); i++) { page = doc.getPages().get(i); sb.append(page.extractText(true)); } // System.out.println(sb.toString()); String str = getStr(sb.toString()); System.out.println(str); String[] arr = str.split(";"); String gh = ""; String gw = ""; for(int i=0;i<arr.length;i++) { arr[i] = arr[i].trim(); if(i==0) { gh = arr[i]; }else if(i==1) { gw = arr[i]; }else { arr[i] = arr[i].replace(gh, "").replace(gw, ""); } } // System.out.println(); insertSQL(arr); // FileWriter writer; // try { ////将文本写入文本文件 // writer = new FileWriter("f://ExtractText.txt"); // writer.write(sb.toString()); // writer.flush(); // } catch (IOException e) { // e.printStackTrace(); // } doc.close(); } } public static String getStr2(String str) { try { byte[] bs = str.getBytes("utf-8"); for(int i=0;i<bs.length;i++) { byte b = bs[i]; if(b==0) { bs[i]=9; } } str =
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值