java调用SDK版pdftranspro接口详解

pdftranspro

已于 2023-06-20 20:00:41 修改

阅读量1.7k

点赞数

分类专栏： pdf解析 pdf转xml pdf内容提取文章标签：大数据经验分享人工智能 Powered by 金山文档

于 2023-01-16 10:03:53 首次发布

本文链接：https://blog.csdn.net/pdftranspro/article/details/128700385

版权

pdf解析同时被 3 个专栏收录

4 篇文章 1 订阅

订阅专栏

pdf转xml

4 篇文章 0 订阅

订阅专栏

pdf内容提取

4 篇文章 0 订阅

订阅专栏

前言

PDF 文件是一种非常常用的文件格式，在企业信息系统存储和交换信息中普遍使用。然而从 PDF 文档中获取表格段落等文档内容却是一件非常麻烦的事情，这是因为pdf的设计初衷是基于文档显示的，为了能保证在不同平台中完全一致的视觉效果，文档以页为单位存储的是一系列包含线条、字符、图片等基本元素的绘图指令。基于这个原因，pdf文档不能像word文档一样直接获取表格和段落，如要获取结构化的文档内容，需要在获取字符、线条等图形及坐标基础上按阅读顺序把含线条、字符、图片等基本元素拼接成文档，过程十分复杂，而且需要不断优化才能达到满意的效果。

PDFBox是apache基金会旗下的一个为java开发人员读取和创建PDF文档而准备的纯Java开源类库。通过PDFBox可以轻松解析PDF文档并逐页获取图形元素及坐标。

pdftranspro是基于PDFBox的一个专业的高性能 pdf 文本内容提取解决方案，支持windows和linux平台，经过数年的持续改进其内容提取能力已经达到令人惊艳的地步，不仅能对跨页、跨栏的段落或表格进行合并处理，精确还原整篇文档内的段落和表格，而且可以同时输出html、xml、json、txt 等 4 种格式，方便用户高效获取 pdf 文档内的精确信息或数据。其个人版提供操作界面，可以一键处理单个pdf文档，个人用户免费使用。SSDK版通过Java调用SDK方式集成pdf文档转换功能，也提供 pdf文档截取合并等实用的 pdf 编辑功能。控制台版需取得licence文件才能使用，用户可免费试用。

接口说明

1.单文档转换

转换单个 PDF 文档至 html、xml、json、txt 等格式。

处理函数1：

public void transone_pdf(String infile,String outpath,boolean out_style,boolean html,boolean xml, boolean json,boolean txt,boolean imaged)

其中参数infile为源文件位置，outpath为文件输出路径， out_style 为转换样式参数，true 为"标记页码"，false 为"跨页合并"。html、xml、json、txt等参数表示是否生成该格式文件，可同时转换生成多种格式文件，imaged表示是否嵌入图片。

处理函数2：

public void transone_pdf(String infile,String outpath,boolean out_style,boolean html,boolean xml, boolean json,boolean txt,boolean imaged,int pagestart,int pageend)

其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码。

处理函数3：

public String getpdftext(String infile,boolean out_style,String out_type, boolean imaged)

该函数返回指定格式文本，其中参数 out_style 为转换样式参数，true 为"标记页码"，false 为"跨页合并"，out_type 为文本格式，只能是”html”,”xml”,”json”或”txt”，imaged表示是否嵌入图片。

处理函数4：

public String getpdftext(String infile,boolean out_style,String out_type boolean imaged,int pagestart,int pageend)

其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码。

示例：

import org.pdf.parser.Pdfutil;
public class Test_util 
{
    public static void main(String[] args)
    {
        Pdfutil test = new Pdfutil();
        test.transone_pdf("infiles/abc.pdf","outfiles",true,true,false,false,false,false);    //将表示将文件 infiles/abc.pdf 转成 html 格式，转换样式为"标记页码"，文件生成在 outfiles 下,不嵌入图片。
        test.transone_pdf("infiles/abc.pdf","outfiles",false,true,true, true,true,true,10,20);//表示将文件 infiles/abc.pdf 转成 html、xml、json、txt四种格式，转换样式为"跨页合并"，页码范围为 10 至 20 页，文件生成在 outfiles 下，嵌入图片。
        System.out.println(test.getpdftext("infiles/abc.pdf",false,"xml",false));//表示将文件 infiles/abc.pdf 转成 xml 格式，转换样式为跨页合并，返回生成的 xml 文本,不嵌入图片。
        System.out.println(test.getpdftext("infiles/abc.pdf",true,"html",true,10,20));//表示将文件 infiles/abc.pdf 转成 html 格式，转换样式为标记页码，页码范围为 10 至 20 页，返回生成的 html 文本，嵌入图片。
    }
}

2.批量文档转换

批量转换 PDF 文档至 html、xml、json、txt 等格式。

处理函数1：

public void transall_pdf(String inpath,String outpath,boolean txt,boolean html,boolean xml, boolean json,boolean out_style,boolean imaged)

其中参数infile为源文件路径，outpath为文件输出路径， out_style 为转换样式参数，true 为"标记页码"，false 为"跨页合并"。html、xml、json、txt等参数表示是否生成该格式文件，可同时转换生成多种格式文件，imaged表示是否嵌入图片。

处理函数2：

public void transall_pdf(String inpath,String outpath,boolean txt,boolean html,boolean xml, boolean json,boolean out_style,boolean imaged,int pagestart,int pageend,int num_bfs)

其中增加参数 pagestart 和 pageend 分别代表起始页码和截止页码，num_bfs 为并发任务数，系统默认为 5，有效设置范围为 1 至 10。

示例：

import org.pdf.parser.Pdfutil;
public class Test_util 
{
    public static void main(String[] args)
    {
        Pdfutil test = new Pdfutil();
        test.transall_pdf("infiles","outfiles",true,true,false,false,false,false);//将表示将文件夹 infiles 下所有 pdf 文件转成 html 格式，转换样式为标记页码，文件生成在 outfiles 下,不嵌入图片。
        test.transall_pdf("infiles","outfiles",false,true,true, true,true,true,10,20);//表示将文件夹infiles下所有pdf文件转成html、xml、json、txt 四种格式，转换样式为跨页合并，页码范围为 10 至 20 页，文件生成在 outfiles 下,嵌入图片。
    }
}

3.文档截取

用于截取 pdf 文档，生成一份新的指定页码范围的 pdf 文档。

处理函数：

 public void splitpdf(String filePath, String outPath,int startpageNum,int endpageNum)

其中参数filePath为源文件位置，outpath为文件输出路径， startpageNumh 和 endpageNum 分别代表起始页码和截止页码。截取后的文件名为源文件加前缀”split_”。

示例：

import org.pdf.parser.Pdfutil;
public class Test_util
 {
    public static void main(String[] args)
    {
        Pdfutil test = new Pdfutil();
        test.splitpdf("infiles/abc.pdf","outfiles",1,10);// 表 示 截 取 文 件 infiles/abc.pdf 第 1 至 10 页 ， 生 成 在 outfiles 下，文件名为”split_abc.pdf”。
    }
}

4.文档合并

用于合并两份 pdf 文档为一份 pdf 文档。

处理函数：

 public void mergepdf(String filename1,String filename2,String outpath)

其中参数filename1为源文件1位置，filename2为源文件2位置，outpath为文件输出路径。合并后的文件名为filename1 加前缀”merg_”。

示例：

import org.pdf.parser.Pdfutil;
public class Test_util
 {
    public static void main(String[] args)
    {
    Pdfutil test = new Pdfutil();
        test.mergepdf("infiles/abc1.pdf","infiles/abc2.pdf","outfiles");// 表 示 合 并 文 件 infiles/abc1.pdf 和 infiles/abc2.pdf 生成在 outfiles 下，文件名为”merg_abc1.pdf”。
    }
}

本文完。

pdftranspro

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
7
评论
java调用SDK版pdftranspro接口详解

PDF 文件是一种非常常用的文件格式，在企业信息系统存储和交换信息中普遍使用。然而从 PDF 文档中获取表格段落等文档内容却是一件非常麻烦的事情，这是因为pdf的设计初衷是基于文档显示的，为了能保证在不同平台中完全一致的视觉效果，文档以页为单位存储的是一系列包含线条、字符、图片等基本元素的绘图指令。
复制链接

扫一扫

专栏目录