Apache Lucene Tika 文件内容提取工具

最新推荐文章于 2024-04-02 10:29:38 发布

summerbell

最新推荐文章于 2024-04-02 10:29:38 发布

阅读量166

点赞数

分类专栏： Lucene&切分词文章标签： Apache lucene HTML XML Google

本文链接：https://blog.csdn.net/summerbell/article/details/83526915

版权

Lucene&切分词专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Tika入门

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。

在当前版本中，Tika提供了对如下文件格式的支持:

PDF - 通过Pdfbox

MS-* - 通过POI

HTML - 使用nekohtml将不规范的html整理成为xhtml

OpenOffice 格式 - Tika提供

Archive - zip, tar, gzip, bzip等

RTF - Tika提供

Java class - Class解析由ASM完成

Image - 只支持图像的元数据抽取

XML

下面来一个例子：

import java.io.BufferedInputStream;
import java.io.BufferedOutputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.OutputStream;

import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.html.HtmlParser;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.apache.tika.parser.pdf.PDFParser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;

public class TikaDemo {
	// public static String PATH = "E:\\test.docx";
	// public static String PATH = "g:\\丁聪生前访谈：画漫画有个屁用！_夏冬红_新浪博客.htm";
	public static String PATH = "g:\\你眷恋的 都已离去 歌词 - Google 搜索.htm";

	// public static String PATH = "E:\\summerbell的博客文章(32).pdf";

	public static String OUTPATH = PATH + ".OUT";

	/**
	 * @param args
	 * @throws TikaException
	 * @throws SAXException
	 * @throws IOException
	 */
	public static void main(String[] args) throws IOException, SAXException,
			TikaException {
		// Parser parser = new OOXMLParser();
		// Parser parser = new PDFParser();
		Parser parser = new HtmlParser();
		/**
		 * */
		// InputStream iStream = new BufferedInputStream(new FileInputStream(
		// new File(PATH)));
		// OutputStream oStream = new BufferedOutputStream(new FileOutputStream(
		// new File(OUTPATH)));
		// ContentHandler iHandler = new BodyContentHandler(oStream);
		// parser.parse(iStream, iHandler, new Metadata(), new ParseContext());
		/**
		 * 处理指定编码的html.
		 */
		InputStream iStream = new BufferedInputStream(new FileInputStream(
				new File(PATH)));
		OutputStream oStream = new BufferedOutputStream(new FileOutputStream(
				new File(OUTPATH)));
		ContentHandler iHandler = new BodyContentHandler(oStream);
		Metadata meta = new Metadata();
		meta.add(Metadata.CONTENT_ENCODING, "utf-8");
		parser.parse(iStream, iHandler, meta, new ParseContext());

	}
}

为了检测tika的效率，选取了一个较大的docx文档。

利用=rand(x,y)功能写出1000个段落，每个段落100包含100句文字。

Tika可以正常处理。

源码已附上，用到的jar包在这里：

(如果要处理其他类型的文件，如pdf，还需引入其他的jar包。如Pdfbox等。)

summerbell

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Apache Lucene Tika 文件内容提取工具

Tika入门 Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。在当前版本中，Tika提供了对如下文件格式的支持: PDF - 通过Pdfbox MS-* - 通过POI H...
复制链接

扫一扫

专栏目录