使用itext抽取pdf内容

iText是著名的开放源码的站点sourceforge的一个项目,它是一个用于生成PDF文档的一个java开源库。通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件。如果PDF是标记的且包含一个结构树,就可以借助于iText将PDF文档转换成XML文档(这往往取决于PDF文档是如何创建的)。另外还可以从页面中提取纯文本。iText还可以用来标识现有的PDF文档,以及对它们进行加密等。下面给出使用iText对图5.12所示的PDF转换为纯文本的方法、步骤。

(1)在Eclipse中新建一个Java工程。

(2)下载相应的iText-5.0.2.jar并放到对应的lib目录下。在工程中创建包并创建测试类,该类包含一个inspect方法用于从一个PDF中获取文本,它接受两个参数,分别是PDF文件路径和输出流,指定要提取的PDF文件的路径和读取PDF所用的输出流,比如:PDF路径为E://text.pdf。然后调用iText提供的PdfReader类和PdfTextExtractor类,将PDF格式的文本提取出来并写入txt文件中。部分代码如下:

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.PrintWriter;

import com.itextpdf.text.DocumentException;

import com.itextpdf.text.pdf.PdfReader;

import com.itextpdf.text.pdf.parser.PdfTextExtractor;

public class PDF {

 

         /** The resulting text file with info about a PDF. */

    public static final String RESULT  = "d:/ceshi.txt";//存放由pdf转换成txt文件的路径。

    /**

     * Main method.

     * @param args no arguments needed

     * @throws DocumentException

     * @throws IOException

     */

    public static void main(String[] args)

        throws DocumentException, IOException {

        PrintWriter writer = new PrintWriter(new FileOutputStream(RESULT));//txt文件写入流

        String string = "E:/text.pdf";//pdf文件路径

        inspect(writer,string); //调用读取方法

        writer.close();

    }

    /**

     * Inspect a PDF file and write the info to a txt file

     * @param writer Writer to a text file

     * @param filename Path to the PDF file

     * @throws IOException

     */

    public static void inspect(PrintWriter writer, String filename)

        throws IOException {

        PdfReader reader = new PdfReader(filename); //读取pdf所使用的输出流

        int num = reader.getNumberOfPages();//获得页数

        String content = "";  //存放读取出的文档内容

        for (int i = 1; i < num; i++) {

           content += PdfTextExtractor.getTextFromPage(reader, i); //读取第i页的文档内容

                  }

       writer.write(content);//写入文件内容

        writer.flush();

    }

}


转载于:https://my.oschina.net/u/225677/blog/85411

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值