1.下载PDFBox第三方jar包(本例中只需要下载pdfbox-2.0.2.jar以及fontbox-2.0.2.jar,示例程序包含在pdfbox-2.0.2-src.zip文件中,本例使用的jdk为1.8版本),以及commons-logging-1.2.jar包。
PDFBox下载地址:https://pdfbox.apache.org/download.cgi
commons-logging-1.2.jar包下载地址:http://commons.apache.org/proper/commons-logging/download_logging.cgi
2.在eclipse里面建立相应的工程,在工程文件下建立lib目录,复制下载的jar文件到lib目录下,依次选中jar文件右键选择buildpath->add to build path
3.编辑源代码如下:
package org.apache.pdfbox.examples.util;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.text.PDFTextStripperByArea;
import java.awt.Rectangle;
import java.io.File;
import java.io.IOException;
/**
* This is an example on how to extract text from a specific area on the PDF document.
*
* @author Ben Litchfield
*/
public final class ExtractTextByArea
{
private ExtractTextByArea()
{
//u