Tika入门
Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。
在当前版本中,Tika提供了对如下文件格式的支持:
PDF - 通过Pdfbox
MS-* - 通过POI
HTML - 使用nekohtml将不规范的html整理成为xhtml
OpenOffice 格式 - Tika提供
Archive - zip, tar, gzip, bzip等
RTF - Tika提供
Java class - Class解析由ASM完成
Image - 只支持图像的元数据抽取
XML
下面来一个例子:
- import java.io.BufferedInputStream;
- import java.io.BufferedOutputStream;
- import java.io.File;
- import java.io.FileInputStream;
- import java.io.FileOutputStream;
- import java.io.IOException;
- import java.io.InputStream;
- import java.io.OutputStream;
- import org.apache.tika.exception.TikaException;
- import org.apache.tika.metadata.Metadata;
- import org.apache.tika.parser.ParseContext;
- import org.apache.tika.parser.Parser;
- import org.apache.tika.parser.html.HtmlParser;
- import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
- import org.apache.tika.parser.pdf.PDFParser;
- import org.apache.tika.sax.BodyContentHandler;
- import org.xml.sax.ContentHandler;
- import org.xml.sax.SAXException;
- public class TikaDemo {
- // public static String PATH = "E:\\test.docx";
- // public static String PATH = "g:\\丁聪生前访谈:画漫画有个屁用!_夏冬红_新浪博客.htm";
- public static String PATH = "g:\\你眷恋的 都已离去 歌词 - Google 搜索.htm";
- // public static String PATH = "E:\\summerbell的博客文章(32).pdf";
- public static String OUTPATH = PATH + ".OUT";
- /**
- * @param args
- * @throws TikaException
- * @throws SAXException
- * @throws IOException
- */
- public static void main(String[] args) throws IOException, SAXException,
- TikaException {
- // Parser parser = new OOXMLParser();
- // Parser parser = new PDFParser();
- Parser parser = new HtmlParser();
- /**
- * */
- // InputStream iStream = new BufferedInputStream(new FileInputStream(
- // new File(PATH)));
- // OutputStream oStream = new BufferedOutputStream(new FileOutputStream(
- // new File(OUTPATH)));
- // ContentHandler iHandler = new BodyContentHandler(oStream);
- // parser.parse(iStream, iHandler, new Metadata(), new ParseContext());
- /**
- * 处理指定编码的html.
- */
- InputStream iStream = new BufferedInputStream(new FileInputStream(
- new File(PATH)));
- OutputStream oStream = new BufferedOutputStream(new FileOutputStream(
- new File(OUTPATH)));
- ContentHandler iHandler = new BodyContentHandler(oStream);
- Metadata meta = new Metadata();
- meta.add(Metadata.CONTENT_ENCODING, "utf-8");
- parser.parse(iStream, iHandler, meta, new ParseContext());
- }
- }
为了检测tika的效率,选取了一个较大的docx文档。
利用=rand(x,y)功能写出1000个段落,每个段落100包含100句文字。
Tika可以正常处理。