如何使用免费PDF第三方插件从PDF文档中提取文本和图片

现在手头的项目有一个需求是从PDF文档中提取文本和图片,我以前也使用过像iTextSharp, PDFBox 这些免费的PDF插件,可是这次都测试了一下,或多或少有一些地方不是很满意。最后同事推荐我使用免费的Spire.PDF,最后发现结果简直是让我惊喜。最重要的是,作为一家中国企业,他们还能提供完全没有时差的中文免费技术支持。所以迫不及待的想和大家分享一下我的使用经验。

开发环境需求:

首先,从Codeplex官网下载免费的Spire.PDF : http://freepdf.codeplex.com/安装好程序后,添加Spire.License.dll,Spire.Pdf.dll  这两个引用到我们的工程程序。免费Spire.PDF支持.NET 2.0--.NET4.5版本。根据自己的项目需求添加相应文件夹里的dlls就可以。


操作步骤:

前面提到过,我的需求是从PDF文档里将文本和图片单独获取出来。使用Spire.PDF,只需要几行代码就能完成这个需求。下面是详细的操作步骤。

1.生成一个PDF,画文本和图片到PDF里面。

2.从PDF文档中提取所有图片。

3.从PDF文档中提取所有文本。

下面的代码示例是讲如何创建一个空的PDF文档,将文本和图片加进PDF.

PdfDocument doc = new PdfDocument();
PdfPageBase page = doc.Pages.Add(); 

//Add Text   
page.Canvas.DrawString("Demo of extract text and imgae from PDF!";
new PdfFont(PdfFontFamily.Helvetica, 20f);
new PdfSolidBrush(Color.Black), 10, 10);

//Add Picture
PdfImage image = PdfImage.FromFile("pdf.png");
float width = image.Width * 0.75f;
float height = image.Height * 0.75f;
float x = (page.Canvas.ClientSize.Width - width) / 2;
page.Canvas.DrawImage(image, x, 60, width, height);

PdfImage image2 = PdfImage.FromFile("image.jpg");
width = image2.Width * 0.75f;
height = image2.Height * 0.75f;
page.Canvas.DrawImage(image2, x-100, 220, width, height);

doc.SaveToFile("sample.pdf");

生成的PDF文件


下面的代码将显示如何从PDF文档中获取图片。同样,也只需要几行代码。

PdfDocument doc = new PdfDocument();
doc.LoadFromFile("sample.pdf");

IList<Image> images = new List<Image>();
foreach (PdfPageBase page in doc.Pages)
  {
    if (page.ExtractImages() != null)
      {
        foreach (Image image in page.ExtractImages())
         {
           images.Add(image);
         }
      }
  }
doc.Close();
int index = 0;
foreach (Image image in images)
  {
   String imageFileName = String.Format("Image-{0}.png", index++);
   image.Save(imageFileName, ImageFormat.Png);
  }

运行后,所有的图片被保存为了.png格式。在debug文件夹里可以看到我们获取的PDF文档中的两幅图像。




下面的代码将显示如何从PDF文档中提取文本。同样,也只需要几行代码。

            PdfDocument doc = new PdfDocument();
            doc.LoadFromFile("sample.pdf");

            StringBuilder buffer = new StringBuilder();
            foreach (PdfPageBase page in doc.Pages)
            {
                buffer.Append(page.ExtractText());
            }
            doc.Close();
            String fileName = "TextInPdf.txt";
            File.WriteAllText(fileName, buffer.ToString());
            buffer = null;

提取的文本被保存为了.txt文档。详情见截图:


总结:

总的来说,网上有很多第三方PDF插件来操作PDF文档。Free Spire.PDF的优点在于免费,易用,大大节省了开发者的时间。但是免费版本在加载和写出时,PDF页面被限制在了十页以内。不过这已经足够我的项目需要了。如果你的项目超出限制,也有收费版Spire.PDF可以使用。官方提供30天免费试用。



  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Free Spire.PDFViewer for .NETSpire.PDFViewer for .NET免费版本,使用 Free Spire.PDFViewer,程序员可以在 WinForm 程序加载并查看 PDF 文档。浏览 PDF 时,用户可以自由设置浏览选项,比如:自动适应纸张/自动适应窗口,上一页/下一页,放大/缩小,等等。Free Spire.PDFViewer 支持浏览含多种元素的 PDF,这些元素包括超链接,字体(TrueType, Type 0, Type 1, Type 3, OpenType and CJK font),图形,表格, Device-Dependent Color Spaces, DCT,JPEG2000 等图片格式。 此外,该控件还支持纵向、横向和自动打印文档,支持将 PDF 保存为多种流行的图片格式(.bmp, .png, .jpeg)。作为一款独立的 PDF 查看组件,Free Spire.PDFViewer 的运行不依赖 Adobe Reader 及其他任何第三方软件。 主要功能点: 1.从文件,流,字节数组读取文档 2.加载浏览加密的 PDF 文档 3.设置浏览选项(页面跳转,缩放,自适应页面大小,旋转,单页或多页显示) 4.显示缩略图 5.识别书签目录及跳转到目标位置 6.存取附件到本地硬盘 7.支持多种打印方式:横向,纵向,自动 8.保存为图片(.bmp, .png, .jpeg) 9.支持多种PDF页面元素(超链接,字体,图形,图片,表格) 技术特点: 1.支持 .NET Framework 2.0, 3.0, 3.5, 4.0 2.仅支持 Windows Form 3.支持ASCIIHex, ASCII85, Flate, LZW, Run Length, CCITT Fax, DCT, JPX 解码 4.控件完全由 C# 代码开发 5.独立组件,无需 Adobe Reader 及其他任何第三方软件
免费Spire.PDF for .NET 是一款由e-iceblue公司开发的专业性的PDF文档创建组件。它能够使用户在不用Adobe Acrobat和其他外部控件的情况下,运用.NET 应用程序阅读,编写和操纵PDF 文档Spire.PDF for .NET不仅可以运用在服端比如:ASP.NET 或者其他环境,还可以应用在Windows Forms 应用程序Spire.PDF for .NET 适合应用于所有常见的坏境,比如:创建好的PDF文档可以存到磁盘, 还可以在Windows Forms应用程序,ASP.NET 应用程序客户端浏览器保存为数据流。 Spire.PDF for .NET 功能丰富。 除了基本的功能比如:绘制多种图形,图片,创建窗体字段,插入页眉页脚,输入数据表,自动对大型表格进行分页外,Spire.PDF for .NET还支持PDF数字签名,将HTML转换成PDF格式,提取PDF文档文本信息和图片,存为文本格式和各种图片格式,甚至可以将PDF的附件提取出来。 主要功能 支持嵌入式字体,Truetype 字体和CJK字体。 支持绘图。比如:矩形,环形,弧形,椭圆形,也可以自定笔刷将其填充。 可以将图片从数据流,磁盘文件载入到PDF 文档。 在PDF 文档既可以绘制梯状图形和矢量图像,还支持掩模和水印图像。 可以在PDF 文档载入数据表。可以设置表的行和列的格式,还可以在表内加入图形元素。 自动对PDF 的大型表格进行分页。 创建窗体字段。比如在PDF 文档创建按钮,文本框,列表框,复选框等等。 在PDF 插入页眉页脚。 通过设置所有者密码和用户密码来加密PDF文档。 通过作者的签名来保护PDF文档。 读取当前PDF文档的表格并且填充表格。 HTML网页在转换到PDF文档时会拆分为多个大型页面,这些页面可以原原本本的展现在PDF文档,而且在PDF文档的分页处没有任何文字的截断。用户还可以将这些网页在不需要临时文件的情况下,直接转换为数据流来创建PDF文档
Free Spire.PDF for .NETSpire.PDF for .NET免费版本,无需购买即可用于个人或商业用途。使用该组件,程序员可以 在.NET 程序创建、读取、写入、编辑和操作 PDF 文档。这个控件能支持的功能十分全面,例如文档安全性设置(电子签名),提取 PDF 文本、附件、图片PDF 合并和拆分,更新 Metadata,设置 Section,绘制图形、插入图片、表格制作和加工、导入数据等等。除此以外,Spire.PDF 还可以将 TXT 文本图片、HTML 高质量地转换为 PDF 文件格式。 主要功能如下: 1.高质量的文档转换。Free Spire.PDF for .NET 支持 PDF 到 Word、XPS、SVG、EMF、Text 和图片(EMF、JPG、PNG、BMP、TIFF)的格式转换。也支持从 XML、HTML、RTF、XPS、Text、图片等格式生成 PDF 文档。 2.文档操作及域功能。支持合并、拆分 PDF 文档,在原有的 PDF 文档页添加覆盖页。同时,Spire.PDF 提供导入、邮戳、小册子功能,以及帮助用户从数据库读取数据并填充到域的域填写功能。 3. 安全性设置。用户可以通过设置密码和数字签名来保护 PDF 文档。用户密码和所有者密码可以确定加密的 PDF 文档的可读性、可修改性、是否可打印等有选择性的限制。与此同时,数字签名作为一个更有效的方法,可以应用于维护和对PDF文档进行身份验证。 4.数据提取。支持快速高效地从 PDF 文档提取图片文本PDF 分页,以及附件。 5.文件属性设置。支持对 Metadata、文件属性、页面方向、页面大小进行设置。其文件属性包括文件限制(打印、页面提取、加评论等方面的权限限制)以及文件描述属性(文件名称、作者、主题、关键字等)。使用 Spire.PDF for .NET,用户还可以根据自己阅读喜好设定默认打开页码,分页模式,缩放比例和打印缩放,等等。 6.其他功能。 支持多种语言,支持字体格式、对齐方式设置。 绘制文字,图片,图形。 支持添加图层,透明图像,Color Space,条形码到 PDF。 支持 PDF/A-1b、PDF/x1a:2001 格式。 添加梯状图形和矢量图像到指定位置。 添加并格式化表格。 插入交互元素,例如添加自定义的 Annotation、Action、JavaScript、附件、书签等。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值