自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

好女绪的博客

前端开发

  • 博客(4)
  • 资源 (5)
  • 收藏
  • 关注

原创 (10)XPDF读取文本

XPDF是一个软件,我们可以通过XPDF抽取PDF中的文本。然而要利用XPDF提取中文文本,需要对其进行一些修改和配置。 1、下载XPDF,下载地址: ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip 2、下载字体Gbsn00lp.ttf和gkai00mp.ttf,下载地址: ftp://ftp.foolabs.com/pub/xpdf

2016-04-01 18:57:22 1801

原创 (9)IText读取PDF

import com.itextpdf.text.pdf.PdfReader;import com.itextpdf.text.pdf.parser.PdfTextExtractor;import java.io.FileOutputStream;import java.io.IOException;import java.io.OutputStreamWriter;import java

2016-04-01 18:53:19 3162

原创 (8)PDFBOX读取PDF(元数据、纲要、文本、图片)

PDFBox是Java实现的PDF文档协作类库,提供PDF文档的创建、处理以及文档内容提取功能,也包含了一些命令行实用工具。其主要特性包括: 1、提取PDF文件的Unicode文本 2、将PDF切分成多个PDF文件或合并多个PDF文件 3、从PDF表格中提取数据或填写PDF表格 4、验证PDF文件是否符合PDF/A-1b标准 5、使用标准的java API打印PDF文件 6、将PDF文件

2016-04-01 18:52:05 13935 5

原创 (7)PDFMiner提取PDF文本

PDFMiner是一个可以从PDF文档中提取信息的工具。与其他PDF相关的工具不同,它注重的完全是获取和分析文本数据。PDFMiner允许你获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器,可以把PDF文件转换成HTML等格式。它还有一个扩展的PDF解析器,可以用于除文本分析以外的其他用途。 PDFMiner内置两个好用的工具:pdf2txt.py和dumppdf.py

2016-04-01 18:48:12 31934 10

前端资源汇总.txt

整理了前端的学习书籍,对前端感兴趣的小伙伴可以下载来看。

2019-06-28

pdfbox-1.8.10.jar

pdfbox-1.8.10.jar

2016-04-01

mongo-java-driver-3.0.2.jar

2016-03-28

tika-app-1.7.jar

tika-app-1.7.jar

2016-03-19

tika1.7jar包(app、core、parsers)

tika1.7jar包(app、core、parsers)

2016-03-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除