基于C＃从PDF文档中提取文本

最新推荐文章于 2024-11-20 17:27:42 发布

刘联其

最新推荐文章于 2024-11-20 17:27:42 发布

阅读量2.5k

点赞数

分类专栏： Spire.PDF

本文链接：https://blog.csdn.net/qqqqqqqqqq198968/article/details/85091265

版权

11 篇文章

订阅专栏

在PDF文档中，内容通常由文本形成。如果读者认为内容对他们有用或者可以作为模板，他们可能需要从PDF中提取文本并保存为其他格式文档。

Spire.PDF为用户提供从PDF文档中提取文本并将文本保存为txt的功能。该程序指南演示了如何通过Spire.PDF轻松快速地使用C＃/ VB.NET提取文本的方法。

第1步：加载PDF文档

声明一个新的PDF文档，然后使用document.LoadFromFile（）方法获取我们要提取文本的文档。传递给此方法的参数是文件名字符串。

[C＃]

PdfDocument document = new PdfDocument();
document.LoadFromFile(@"E:\work\C pointer.pdf");

第2步：从PDF中提取文本

声明一个新的StringBuilder内容，它代表一个可变的字符串。然后，使用content.Append（）方法在StringBuilder中附加PDF中的提取文本。在此示例中，从第一页提取文本。

[C＃]

StringBuilder content = new StringBuilder();
content.Append(document.Pages[0].ExtractText());

第3步：保存并启动提取的文本

定义文件名字符串。然后，使用File.WriteAllText（）方法创建一个新文件并在其中写入指定的字符串然后关闭文件。传递给它的参数是文件名字符串和内容字符串。最后，启动此保存的文件。

[C＃]

String fileName = "TextFromPDF.txt";
File.WriteAllText(fileName, content.ToString());
System.Diagnostics.Process.Start("TextFromPDF.txt");

注意：如果要从所有页面中提取文本，请使用以下句子。

[C＃]

foreach (PdfPageBase page in document.Pages)
{
  content.Append(page.ExtractText());
}

有效的Screeshot：

Spire.PDF是一个PDF文档创建组件，使您的.NET应用程序无需使用Adobe Acrobat即可读取，编写和操作PDF文档。现在，新版本增加了Silverlight平台，使其更加强大。