C# 实现从PDF文档的指定区域内提取文本

有时候我们可能想获取PDF文档中某个指定区域内的文本而不是全部的文本,因此这篇文章将介绍一个针对该需求的解决方案,该方案所使用的组件是Spire.PDF。它不仅支持获取PDF文档中指定矩形区域内的文本,还支持获取指定页面或全部页面内的文本和图片。

下面是本方案所使用的示例文档截图,接下来我将使用Spire.PDF组件获取选中区域内的文本。

首先创建一个C#控制台应用程序,引用Spire.Pdf.dll到工程中并添加以下命名空间:

using System.Drawing;
using System.IO;
using System.Text;
using Spire.Pdf;

详细步骤如下:

步骤1:创建一个PdfDocument类的实例并加载PDF文档。

PdfDocument pdf = new PdfDocument();
pdf.LoadFromFile("Input.pdf");

步骤2:获取第一页。

PdfPageBase page =pdf.Pages[0];

步骤3:从第一页的指定矩形区域内提取文本,并保存到一个txt文件中。该矩形区域通过X Y坐标以及宽度和高度指定。

string text = page.ExtractText(newRectangleF(50, 50, 500, 100));
 
StringBuilder sb = new StringBuilder();
sb.AppendLine(text);
File.WriteAllText("Extract.txt",sb.ToString()); 
           

运行效果:



完整代码:

using System.Drawing;
using System.IO;
using System.Text;
using Spire.Pdf;

namespace Extract_text_from_given_rectangle_in_PDF
{
    class Program
    {
        static void Main(string[] args)
        {
            //创建PdfDocument实例
            PdfDocument pdf = new PdfDocument();
            //加载PDF文档
            pdf.LoadFromFile("Input.pdf");
 
            //获取第一页
            PdfPageBase page = pdf.Pages[0];
 
            //从第一页的指定矩形区域内提取文本
            string text = page.ExtractText(new RectangleF(50, 50, 500, 100) );
 
            //保存文本到.txt文件
            StringBuilder sb = new StringBuilder();
            sb.AppendLine(text);
            File.WriteAllText("Extract.txt", sb.ToString());
        }
    }
}



 

 

 

 

 

 

 

 

 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 14
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 14
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值