文件读写
Fighting_No1
这个作者很懒,什么都没留下…
展开
-
(1)Tika获取文件的类型、编码、文本内容
利用Tika,我们可以获得文件的实际类型、文件的编码格式、字符串的语言、文件的文本内容。Tika集成了许多jar包,包括poi和pdfbox,通过Tika对象的parseToString(File file)方法可以读取TXT、Word、Excel、PPT、PDF、HTML、XML等文件的文本内容。import java.io.File;import java.io.FileInputStream原创 2016-03-19 12:13:41 · 5394 阅读 · 0 评论 -
(9)IText读取PDF
import com.itextpdf.text.pdf.PdfReader;import com.itextpdf.text.pdf.parser.PdfTextExtractor;import java.io.FileOutputStream;import java.io.IOException;import java.io.OutputStreamWriter;import java原创 2016-04-01 18:53:19 · 3162 阅读 · 0 评论 -
(8)PDFBOX读取PDF(元数据、纲要、文本、图片)
PDFBox是Java实现的PDF文档协作类库,提供PDF文档的创建、处理以及文档内容提取功能,也包含了一些命令行实用工具。其主要特性包括: 1、提取PDF文件的Unicode文本 2、将PDF切分成多个PDF文件或合并多个PDF文件 3、从PDF表格中提取数据或填写PDF表格 4、验证PDF文件是否符合PDF/A-1b标准 5、使用标准的java API打印PDF文件 6、将PDF文件原创 2016-04-01 18:52:05 · 13930 阅读 · 5 评论 -
(7)PDFMiner提取PDF文本
PDFMiner是一个可以从PDF文档中提取信息的工具。与其他PDF相关的工具不同,它注重的完全是获取和分析文本数据。PDFMiner允许你获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器,可以把PDF文件转换成HTML等格式。它还有一个扩展的PDF解析器,可以用于除文本分析以外的其他用途。 PDFMiner内置两个好用的工具:pdf2txt.py和dumppdf.py原创 2016-04-01 18:48:12 · 31933 阅读 · 10 评论 -
(6)POI生成Excel文件
import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.util.ArrayList;import java.util.logging.Level;import java.util.logging.Logger;import re原创 2016-03-19 12:28:29 · 632 阅读 · 0 评论 -
(3)Python读写Excel
python读写Excel需要两个包:xlrd和xlwt。#!/usr/bin/python#-*- coding: utf-8 -*-import xlrd #必须事先引入读excel的包xlrdimport xlwt #必须事先引入写excel的包xlwt#根据索引获取Excel表格中的数据#参数:file:Excel文件路径,colnameindex:表头列名所在行的索引,by_ind原创 2016-03-19 12:18:45 · 711 阅读 · 0 评论 -
(4)Python读写csv文件
#!/usr/bin/python#-*- coding: utf-8 -*-import csvcsvfile = file('E:/csv-train.csv', 'rb')#r为读取模式,b为文件模式reader = csv.reader(csvfile)#打开csv文件wf = file('E:/csv_test.csv', 'w+')#w为写入模式writer = csv.wri原创 2016-03-19 12:19:44 · 1215 阅读 · 0 评论 -
(5)POI读取Excel内容
import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStream;import java.text.DateFormat;import java.text.SimpleDateFormat;import java原创 2016-03-19 12:21:38 · 807 阅读 · 0 评论 -
(2)iText生成PDF
利用iText编写并生成PDF文件,可以写入段落、章节、定位符(链接)、列表、图片。 iText的UML图如下: import java.io.FileOutputStream;import java.io.IOException;import java.net.MalformedURLException;import com.itextpdf.text.Anchor;import com原创 2016-03-19 12:16:41 · 2849 阅读 · 0 评论 -
(10)XPDF读取文本
XPDF是一个软件,我们可以通过XPDF抽取PDF中的文本。然而要利用XPDF提取中文文本,需要对其进行一些修改和配置。 1、下载XPDF,下载地址: ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip 2、下载字体Gbsn00lp.ttf和gkai00mp.ttf,下载地址: ftp://ftp.foolabs.com/pub/xpdf原创 2016-04-01 18:57:22 · 1801 阅读 · 0 评论