PDF文件之所以受欢迎,是因为它们支持文本,图像,动画,视频和许多其他注释。
但是,文本是大多数PDF文档中最重要的部分。在本文中,我们将使用C#.NET将PDF转换为TXT文件,并将TXT文件转换为PDF格式。本文内容包括:
- 使用C#或VB.NET将PDF转换为TXT文件而不进行格式化
- 使用C#或VB.NET使用格式化例程将PDF转换为TXT文件
- 使用C#或VB.NET以编程方式将TXT文件转换为PDF
目前,.NET版Aspose.PDF升级到v20.9版,增强TIFF到PDF的转换性能,修复LZW解码器失败等诸多Bug问题,感兴趣的朋友可点击下载最新版。
使用C#或VB.NET将PDF转换为TXT文件而不进行格式化
首先,我们将无需任何格式设置例程即可将PDF转换为文本。文本内容将按原样转换。因此,从输入的PDF文件开始,输出文本将不遵循任何格式。需要按照以下步骤将PDF高效且可靠地转换为TXT。
- 加载输入的PDF文档
- 初始化StringBuilder类的实例
- 遍历PDF文档的每一页
- 使用TextDevice和Raw模式读取文本
- 将输出文本另存为TXT文件
下面的代码段显示了如何在.NET Framework中使用C#或VB将PDF转换为TXT文件:
// Open document
Document pdfDocument = new Document(dataDir