- 博客(4)
- 资源 (5)
- 收藏
- 关注
原创 (10)XPDF读取文本
XPDF是一个软件,我们可以通过XPDF抽取PDF中的文本。然而要利用XPDF提取中文文本,需要对其进行一些修改和配置。 1、下载XPDF,下载地址: ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip 2、下载字体Gbsn00lp.ttf和gkai00mp.ttf,下载地址: ftp://ftp.foolabs.com/pub/xpdf
2016-04-01 18:57:22 1801
原创 (9)IText读取PDF
import com.itextpdf.text.pdf.PdfReader;import com.itextpdf.text.pdf.parser.PdfTextExtractor;import java.io.FileOutputStream;import java.io.IOException;import java.io.OutputStreamWriter;import java
2016-04-01 18:53:19 3162
原创 (8)PDFBOX读取PDF(元数据、纲要、文本、图片)
PDFBox是Java实现的PDF文档协作类库,提供PDF文档的创建、处理以及文档内容提取功能,也包含了一些命令行实用工具。其主要特性包括: 1、提取PDF文件的Unicode文本 2、将PDF切分成多个PDF文件或合并多个PDF文件 3、从PDF表格中提取数据或填写PDF表格 4、验证PDF文件是否符合PDF/A-1b标准 5、使用标准的java API打印PDF文件 6、将PDF文件
2016-04-01 18:52:05 13935 5
原创 (7)PDFMiner提取PDF文本
PDFMiner是一个可以从PDF文档中提取信息的工具。与其他PDF相关的工具不同,它注重的完全是获取和分析文本数据。PDFMiner允许你获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器,可以把PDF文件转换成HTML等格式。它还有一个扩展的PDF解析器,可以用于除文本分析以外的其他用途。 PDFMiner内置两个好用的工具:pdf2txt.py和dumppdf.py
2016-04-01 18:48:12 31934 10
mongo-java-driver-3.0.2.jar
2016-03-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人