java调用SDK版pdftranspro接口详解

前言

PDF 文件是一种非常常用的文件格式,在企业信息系统存储和交换信息中普遍使用。然而从 PDF 文档中获取表格段落等文档内容却是一件非常麻烦的事情,这是因为pdf的设计初衷是基于文档显示的,为了能保证在不同平台中完全一致的视觉效果,文档以页为单位存储的是一系列包含线条、字符、图片等基本元素的绘图指令。基于这个原因,pdf文档不能像word文档一样直接获取表格和段落,如要获取结构化的文档内容,需要在获取字符、线条等图形及坐标基础上按阅读顺序把含线条、字符、图片等基本元素拼接成文档,过程十分复杂,而且需要不断优化才能达到满意的效果。

PDFBox是apache基金会旗下的一个为java开发人员读取和创建PDF文档而准备的纯Java开源类库。通过PDFBox可以轻松解析PDF文档并逐页获取图形元素及坐标。

pdftranspro是基于PDFBox的一个专业的高性能 pdf 文本内容提取解决方案,支持windows和linux平台,经过数年的持续改进其内容提取能力已经达到令人惊艳的地步,不仅能对跨页、跨栏的段落或表格进行合并处理,精确还原整篇文档内的段落和表格,而且可以同时输出html、xml、json、txt 等 4 种格式,方便用户高效获取 pdf 文档内的精确信息或数据。其个人版提供操作界面,可以一键处理单个pdf文档,个人用户免费使用。SSDK版通过Java调用SDK方式集成pdf文档转换功能,也提供 pdf文档截取合并等实用的 pdf 编辑功能。控制台版需取得licence文件才能使用,用户可免费试用。

接口说明

1.单文档转换

转换单个 PDF 文档至 html、xml、json、txt 等格式。

处理函数1:
public void transone_pdf(String infile,String outpath,boolean out_style,boolean html,boolean xml, boolean json,boolean txt,boolean imaged)

其中参数infile为源文件位置,outpath为文件输出路径, out_style 为转换样式参数,true 为"标记页码",false 为"跨页合并"。html、xml、json、txt等参数表示是否生成该格式文件,可同时转换生成多种格式文件,imaged表示是否嵌入图片。

处理函数2:
public void transone_pdf(String infile,String outpath,boolean out_style,boolean html,boolean xml, boolean json,boolean txt,boolean imaged,int pagestart,int pageend)

其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码。

处理函数3:
public String getpdftext(String infile,boolean out_style,String out_type, boolean imaged)

该函数返回指定格式文本,其中参数 out_style 为转换样式参数,true 为"标记页码",false 为"跨页合并",out_type 为文本格式,只能是”html”,”xml”,”json”或”txt”,imaged表示是否嵌入图片。

处理函数4:
public String getpdftext(String infile,boolean out_style,String out_type boolean imaged,int pagestart,int pageend)

其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码。

示例:
import org.pdf.parser.Pdfutil;
public class Test_util 
{
    public static void main(String[] args)
    {
        Pdfutil test = new Pdfutil();
        test.transone_pdf("infiles/abc.pdf","outfiles",true,true,false,false,false,false);    //将表示将文件 infiles/abc.pdf 转成 html 格式,转换样式为"标记页码",文件生成在 outfiles 下,不嵌入图片。
        test.transone_pdf("infiles/abc.pdf","outfiles",false,true,true, true,true,true,10,20);//表示将文件 infiles/abc.pdf 转成 html、xml、json、txt四种格式,转换样式为"跨页合并",页码范围为 10 至 20 页,文件生成在 outfiles 下,嵌入图片。
        System.out.println(test.getpdftext("infiles/abc.pdf",false,"xml",false));//表示将文件 infiles/abc.pdf 转成 xml 格式,转换样式为跨页合并,返回生成的 xml 文本,不嵌入图片。
        System.out.println(test.getpdftext("infiles/abc.pdf",true,"html",true,10,20));//表示将文件 infiles/abc.pdf 转成 html 格式,转换样式为标记页码,页码范围为 10 至 20 页,返回生成的 html 文本,嵌入图片。
    }
}

2.批量文档转换

批量转换 PDF 文档至 html、xml、json、txt 等格式。

处理函数1:
public void transall_pdf(String inpath,String outpath,boolean txt,boolean html,boolean xml, boolean json,boolean out_style,boolean imaged)

其中参数infile为源文件路径,outpath为文件输出路径, out_style 为转换样式参数,true 为"标记页码",false 为"跨页合并"。html、xml、json、txt等参数表示是否生成该格式文件,可同时转换生成多种格式文件,imaged表示是否嵌入图片。

处理函数2:
public void transall_pdf(String inpath,String outpath,boolean txt,boolean html,boolean xml, boolean json,boolean out_style,boolean imaged,int pagestart,int pageend,int num_bfs)

其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码,num_bfs 为并发任务数,系统默认为 5,有效设置范围为 1 至 10。

示例:
import org.pdf.parser.Pdfutil;
public class Test_util 
{
    public static void main(String[] args)
    {
        Pdfutil test = new Pdfutil();
        test.transall_pdf("infiles","outfiles",true,true,false,false,false,false);//将表示将文件夹 infiles 下所有 pdf 文件转成 html 格式,转换样式为标记页码,文件生成在 outfiles 下,不嵌入图片。
        test.transall_pdf("infiles","outfiles",false,true,true, true,true,true,10,20);//表示将文件夹infiles下所有pdf文件转成html、xml、json、txt 四种格式,转换样式为跨页合并,页码范围为 10 至 20 页,文件生成在 outfiles 下,嵌入图片。
    }
}

3.文档截取

用于截取 pdf 文档,生成一份新的指定页码范围的 pdf 文档。

处理函数:
 public void splitpdf(String filePath, String outPath,int startpageNum,int endpageNum)

其中参数filePath为源文件位置,outpath为文件输出路径, startpageNumh 和 endpageNum 分别代表起始页码和截止页码。截取后的文件名为源文件加前缀”split_”。

示例:
import org.pdf.parser.Pdfutil;
public class Test_util
 {
    public static void main(String[] args)
    {
        Pdfutil test = new Pdfutil();
        test.splitpdf("infiles/abc.pdf","outfiles",1,10);// 表 示 截 取 文 件 infiles/abc.pdf 第 1 至 10 页 , 生 成 在 outfiles 下,文件名为”split_abc.pdf”。
    }
}

4.文档合并

用于合并两份 pdf 文档为一份 pdf 文档。

处理函数:
 public void mergepdf(String filename1,String filename2,String outpath)

其中参数filename1为源文件1位置,filename2为源文件2位置,outpath为文件输出路径。合并后的文件名为filename1 加前缀”merg_”。

示例:
import org.pdf.parser.Pdfutil;
public class Test_util
 {
    public static void main(String[] args)
    {
    Pdfutil test = new Pdfutil();
        test.mergepdf("infiles/abc1.pdf","infiles/abc2.pdf","outfiles");// 表 示 合 并 文 件 infiles/abc1.pdf 和 infiles/abc2.pdf 生成在 outfiles 下,文件名为”merg_abc1.pdf”。
    }
}

本文完。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值