在PDF文档中,内容通常由文本形成。如果读者认为内容对他们有用或者可以作为模板,他们可能需要从PDF中提取文本并保存为其他格式文档。
Spire.PDF为用户提供从PDF文档中提取文本并将文本保存为txt的功能。该程序指南演示了如何通过Spire.PDF轻松快速地使用C#/ VB.NET提取文本的方法。
第1步:加载PDF文档
声明一个新的PDF文档,然后使用document.LoadFromFile()方法获取我们要提取文本的文档。传递给此方法的参数是文件名字符串。
[C#]
PdfDocument document = new PdfDocument();
document.LoadFromFile(@"E:\work\C pointer.pdf");
第2步:从PDF中提取文本
声明一个新的StringBuilder内容,它代表一个可变的字符串。然后,使用content.Append()方法在StringBuilder中附加PDF中的提取文本。在此示例中,从第一页提取文本。
[C#]
StringBuilder content = new StringBuilder();
content.Append(document.Pages[0].ExtractText());
第3步:保存并启动提取的文本
定义文件名字符串。然后,使用File.WriteAllText()方法创建一个新文件并在其中写入指定的字符串然后关闭文件。传递给它的参数是文件名字符串和内容字符串。最后,启动此保存的文件。
[C#]
String fileName = "TextFromPDF.txt";
File.WriteAllText(fileName, content.ToString());
System.Diagnostics.Process.Start("TextFromPDF.txt");
注意:如果要从所有页面中提取文本,请使用以下句子。
[C#]
foreach (PdfPageBase page in document.Pages)
{
content.Append(page.ExtractText());
}
有效的Screeshot:
Spire.PDF是一个PDF文档创建组件,使您的.NET应用程序无需使用Adobe Acrobat即可读取,编写和操作PDF文档。现在,新版本增加了Silverlight平台,使其更加强大。