基于C#从PDF文档中提取文本

在PDF文档中,内容通常由文本形成。如果读者认为内容对他们有用或者可以作为模板,他们可能需要从PDF中提取文本并保存为其他格式文档。

Spire.PDF为用户提供从PDF文档中提取文本并将文本保存为txt的功能。该程序指南演示了如何通过Spire.PDF轻松快速地使用C#/ VB.NET提取文本的方法。

第1步:加载PDF文档

声明一个新的PDF文档,然后使用document.LoadFromFile()方法获取我们要提取文本的文档。传递给此方法的参数是文件名字符串。

[C#]

PdfDocument document = new PdfDocument();
document.LoadFromFile(@"E:\work\C pointer.pdf");

 

第2步:从PDF中提取文本

声明一个新的StringBuilder内容,它代表一个可变的字符串。然后,使用content.Append()方法在StringBuilder中附加PDF中的提取文本。在此示例中,从第一页提取文本。

[C#]

StringBuilder content = new StringBuilder();
content.Append(document.Pages[0].ExtractText());

第3步:保存并启动提取的文本

定义文件名字符串。然后,使用File.WriteAllText()方法创建一个新文件并在其中写入指定的字符串然后关闭文件。传递给它的参数是文件名字符串和内容字符串。最后,启动此保存的文件。

[C#]

String fileName = "TextFromPDF.txt";
File.WriteAllText(fileName, content.ToString());
System.Diagnostics.Process.Start("TextFromPDF.txt");

 

注意:如果要从所有页面中提取文本,请使用以下句子。

[C#]

foreach (PdfPageBase page in document.Pages)
{
  content.Append(page.ExtractText());
}

 

有效的Screeshot:

Spire.PDF是一个PDF文档创建组件,使您的.NET应用程序无需使用Adobe Acrobat即可读取,编写和操作PDF文档。现在,新版本增加了Silverlight平台,使其更加强大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值