如何使用免费PDF控件从PDF文档中提取文本和图片

 

         如何使用免费PDF控件从PDF文档中提取文本和图片

 

 

概要

 

现在手头的项目有一个需求是从PDF文档中提取文本和图片,我以前也使用过像iTextSharp, PDFBox 这些免费的PDF插件,可是这次都测试了一下,或多或少有一些地方不是很满意。最后同事推荐我使用免费的Spire.PDF,结果真是让我惊喜。最重要的是,作为一家中国企业,他们还能提供完全没有时差的免费中文技术支持。所以迫不及待的想和大家分享一下我的使用经验。

 

开发环境需求

 

首先,从Codeplex官网下载免费的Spire.PDF :http://freepdf.codeplex.com/安装好程序后,添加Spire.License.dll, Spire.Pdf.dll  这两个引用到我们的工程程序。免费Spire.PDF支持.NET 2.0--.NET4.5版本。根据自己的项目需求添加相应文件夹里的.dll就可以。

 

 

 

操作步骤

 

前面提到过,我们需要从PDF文档里将文本和图片单独获取出来。使用Spire.PDF,只需要几行代码就能完成。下面是详细的操作步骤。

1. 生成一个PDF,将文本和图片添加到PDF里面。

2. PDF文档中提取所有图片。

3. PDF文档中提取所有文本。

 

下面的代码示例是讲如何创建一个空的PDF文档,将文本和图片加进PDF。

 

PdfDocument doc =  new PdfDocument();
PdfPageBase page = doc.Pages.Add();
     
// 添加文本  
page.Canvas.DrawString( " Demo of extract text and imgae from PDF! ",
new PdfFont(PdfFontFamily.Helvetica, 20f),
new PdfSolidBrush(Color.Black),  1010);
     
// 添加图片
PdfImage image = PdfImage.FromFile( " pdf.png ");
float width = image.Width *  0.75f;
float height = image.Height *  0.75f;
float x = (page.Canvas.ClientSize.Width - width) /  2;
page.Canvas.DrawImage(image, x,  60, width, height);
     
PdfImage image2 = PdfImage.FromFile( " image.jpg ");
width = image2.Width *  0.75f;
height = image2.Height *  0.75f;
page.Canvas.DrawImage(image2, x- 100220, width, height);
doc.SaveToFile( " sample.pdf ");

 

生成的PDF文件

 

  

 

下面的代码将展示如何从PDF文档中获取图片。同样,也只需要几行代码。

 

PdfDocument doc =  new PdfDocument();
doc.LoadFromFile( " sample.pdf "); 
IList<Image> images =  new List<Image>();
foreach (PdfPageBase page  in doc.Pages)
{
if (page.ExtractImages() !=  null)
   {
      foreach (Image image  in page.ExtractImages())
         {
               images.Add(image);
          }
   }
}
doc.Close();
int index =  0;
foreach (Image image  in images)
{
  String imageFileName = String.Format( " Image-{0}.png ", index++);
  image.Save(imageFileName, ImageFormat.Png);
 }

 

 

运行后,所有的图片被保存为了.png格式。在debug文件夹里可以看到我们从PDF文档中获取的两幅图像。

 

  

下面的代码将显示如何从PDF文档中提取文本。

 

PdfDocument doc =  new PdfDocument();
doc.LoadFromFile( " sample.pdf ");
 
StringBuilder buffer =  new StringBuilder();
foreach (PdfPageBase page  in doc.Pages)
{
    buffer.Append(page.ExtractText());
}
doc.Close();
String fileName =  " TextInPdf.txt ";
File.WriteAllText(fileName, buffer.ToString());
buffer =  null;
 
 

 

提取的文本被保存为了.txt文件。详情见下图:

 

  



 

总结

   

    总的来说,网上有很多用来操作PDF文档的第三方控件Free Spire.PDF的优点在于免费,易用,大大节省了开发者的时间。但是免费版本在加载和写出时,PDF页面被限制在了十页以内。不过这已经足够我项目的需要了。如果你的项目超出限制,也有收费版Spire.PDF可以使用。官方提供30天免费试用。

转载于:https://www.cnblogs.com/Yesi/p/4203686.html

免费Spire.PDF for .NET 是一款由e-iceblue公司开发的专业性的PDF文档创建组件。它能够使用户在不用Adobe Acrobat和其他外部控件的情况下,运用.NET 应用程序阅读,编写和操纵PDF 文档。Spire.PDF for .NET不仅可以运用在服端比如:ASP.NET 或者其他环境,还可以应用在Windows Forms 应用程序。Spire.PDF for .NET 适合应用于所有常见的坏境,比如:创建好的PDF文档可以存到磁盘, 还可以在Windows Forms应用程序,ASP.NET 应用程序客户端浏览器保存为数据流。 Spire.PDF for .NET 功能丰富。 除了基本的功能比如:绘制多种图形,图片,创建窗体字段,插入页眉页脚,输入数据表,自动对大型表格进行分页外,Spire.PDF for .NET还支持PDF数字签名,将HTML转换成PDF格式,提取PDF文档文本信息和图片,存为文本格式和各种图片格式,甚至可以将PDF的附件提取出来。 主要功能 支持嵌入式字体,Truetype 字体和CJK字体。 支持绘图。比如:矩形,环形,弧形,椭圆形,也可以自定笔刷将其填充。 可以将图片从数据流,磁盘文件载入到PDF 文档。 在PDF 文档既可以绘制梯状图形和矢量图像,还支持掩模和水印图像。 可以在PDF 文档载入数据表。可以设置表的行和列的格式,还可以在表内加入图形元素。 自动对PDF 的大型表格进行分页。 创建窗体字段。比如在PDF 文档创建按钮,文本框,列表框,复选框等等。 在PDF 插入页眉页脚。 通过设置所有者密码和用户密码来加密PDF文档。 通过作者的签名来保护PDF文档。 读取当前PDF文档的表格并且填充表格。 HTML网页在转换到PDF文档时会拆分为多个大型页面,这些页面可以原原本本的展现在PDF文档,而且在PDF文档的分页处没有任何文字的截断。用户还可以将这些网页在不需要临时文件的情况下,直接转换为数据流来创建PDF文档
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值