最近下载了很多pdf电子书想拿到手机上看,突然发现手机只支持txt格式的文件,并不支持pdf格式的电子书。于是只好自己写个小工具来批量的将pdf文件转换为txt文件。
这个转换需要用到PDFBox第三方控件。这是一个Java类库。但是.NET也一样可以用的。首先上PDFBox的官网下载最新版的PDFBox,然后在项目中引用IKVM.GNU.Classpath.dll、PDFBox-0.7.3.dll这两个dll文件,将FontBox-0.1.0-dev.dll、IKVM.Runtime.dll这两个dll文件复制到项目的bin目录下。
读取pdf内容的代码非常简单,如下:
using org.pdfbox.pdmodel;
using org.pdfbox.util;
------------------------------------------------------
string path = bi._input;//获取PDF文件路径
PDDocument doc = PDDocument.load(path);
PDFTextStripper pdfStripper = new PDFTextStripper();
string content = pdfStripper.getText(doc);//获取到pdf内容
PS:这是最简单的,只能读取出PDF内的纯文本。