C#编程读取pdf文件
这看起来是一个不太难的任务,或许您已经在web中找到了如何实现的参考资料。如果您有一个PDF文件,而您不知道如何从中读取数据,可以参考下面的内容。
首先,您需要一些能够帮助您处理PDF文件的动态库。我用的是PDFBox。那么,什么是PDFBox呢?官方网站的介绍如下PDFBox 是一个开源的用于处理PDF文档的Java PDF 库 。它能够创建新的PDF文档,处理现存的PDF文档,还能从文档中抽取内容。PDFBox还包含几个命令行工具。
您也许会说,这很不错,可是我需要一个基于.NET的方案。不用担心,尽管PDFBox是用 Java 写的,但也有一个 .NET 版本。它使用 IKVM (also, a very interesting project: an implementation of the Java language for .NET Framework and Mono) 来为.net 创建一个全功能的PDF库。发布包中的bin目录包含所有需要的DLL文件
所以,需要下载 PDFBox 包。在这个包中,有一个bin目录。为了读取PDF文件,需要下面的文件:
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
您必须在项目中引用前两个动态库,还要把后两个复制到项目的bin目录中。 示例代码如下(假定使用控制台程序
using System;
using org.pdfbox.pdmodel;
using org.pdfbox.util;
namespace PDFReader
{
class Program
{
static void Main(string[] args)
{
PDDocument doc = PDDocument.load("lopreacamasa.pdf");
PDFTextStripper pdfStripper = new PDFTextStripper();
Console.Write(pdfStripper.getText(doc));
}
}
}
这看起来是一个不太难的任务,或许您已经在web中找到了如何实现的参考资料。如果您有一个PDF文件,而您不知道如何从中读取数据,可以参考下面的内容。
首先,您需要一些能够帮助您处理PDF文件的动态库。我用的是PDFBox。那么,什么是PDFBox呢?官方网站的介绍如下PDFBox 是一个开源的用于处理PDF文档的Java PDF 库 。它能够创建新的PDF文档,处理现存的PDF文档,还能从文档中抽取内容。PDFBox还包含几个命令行工具。
您也许会说,这很不错,可是我需要一个基于.NET的方案。不用担心,尽管PDFBox是用 Java 写的,但也有一个 .NET 版本。它使用 IKVM (also, a very interesting project: an implementation of the Java language for .NET Framework and Mono) 来为.net 创建一个全功能的PDF库。发布包中的bin目录包含所有需要的DLL文件
所以,需要下载 PDFBox 包。在这个包中,有一个bin目录。为了读取PDF文件,需要下面的文件:
IKVM.GNU.Classpath.dll
PDFBox-0.7.3.dll
FontBox-0.1.0-dev.dll
IKVM.Runtime.dll
您必须在项目中引用前两个动态库,还要把后两个复制到项目的bin目录中。 示例代码如下(假定使用控制台程序
using System;
using org.pdfbox.pdmodel;
using org.pdfbox.util;
namespace PDFReader
{
class Program
{
static void Main(string[] args)
{
PDDocument doc = PDDocument.load("lopreacamasa.pdf");
PDFTextStripper pdfStripper = new PDFTextStripper();
Console.Write(pdfStripper.getText(doc));
}
}
}