Tika解析抽取docx格式文档时提示找不到类

最新推荐文章于 2024-08-10 17:53:55 发布

mk900715

最新推荐文章于 2024-08-10 17:53:55 发布

阅读量1.8k

点赞数 1

分类专栏： java相关文章标签： tika 抽取找不到类

本文链接：https://blog.csdn.net/mk900715/article/details/52956349

版权

java相关专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次，Tika也提供了便利的扩展API，用来丰富其对第三方文件格式的支持。

在当前的0.2-SNAPSHOT版本中， Tika提供了对如下文件格式的支持:
● PDF - 通过Pdfbox
● MS-* - 通过POI
● HTML - 使用nekohtml将不规范的html整理成为xhtml
● OpenOffice 格式 - Tika提供
● Archive - zip, tar, gzip, bzip等
● RTF - Tika提供
● Java class - Class解析由ASM完成
● Image - 只支持图像的元数据抽取
● XML
Tika的API十分便捷，核心是Parser interface，其中定义了一个parse方法：
public void parse(InputStream stream, ContentHandler handler, Metadata metadata)
用stream参数传递需要解析的文件流，文本内容会被传入handler，而元数据会更新至metadata。

可以使用Tika的ParserUtils工具来根据文件的mime-type来得到一个适当的Parser来进行解析工作。或者Tika还提供了一个AutoDetectParser根据不同的二进制文件的特殊格式 (比如说Magic Code)，来寻找适合的Parser。
提示：主要tika-xx.jar,解析相应的文件必须有相应的jar.例如：excel文件必须用到poi-xx.jar
相关包下载地址http://pan.baidu.com/s/1sl2B2c1

package tika;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;

public class Test {
	
	@org.junit.Test
	public void testTika(){
		File file = new File("D:\\source\\090f1f0e80008727.docx");
		try {
			String fulText = this.parseFile(file);
			System.out.println(fulText);
		} catch (Exception e) {
			e.printStackTrace();
		}
		
	}

	/**
	 * 文本抽取基础方法
	 * 
	 * @param filePath 文本路径
	 * @return
	 */
	private String parseFile(File filePath) throws Exception{
		Parser parser = new AutoDetectParser();
		//创建输入流
		InputStream input = null;
		try {
			input = new FileInputStream(filePath);
			//设置Metadata
			Metadata metadata = new Metadata();
			metadata.set(Metadata.CONTENT_ENCODING, "utf-8");
			metadata.set(Metadata.RESOURCE_NAME_KEY, filePath.getName());
			// 当文件大于100000时，new BodyContentHandler(1024*1024*10);(可以替换为WriteOutContentHandler)
			ContentHandler handler = new BodyContentHandler(1024*1024*10);
			ParseContext context = new ParseContext();
			context.set(Parser.class, parser);
			//解析文档
			parser.parse(input, handler, metadata, context);
			
			return handler.toString();
		} catch (Exception e) {
			throw new Exception();
		} finally {
			if(input != null){
				try {
					input.close();
				} catch (IOException e) {
					e.printStackTrace();
				}
			}
		}
	}
}

但是后期把这个方法集成到项目中的时候却报错了，java.lang.NoClassDefFoundError: org/openxmlformats/schemas/wordprocessingml/x2006/main/CTcustomxmlblock

错误提示是找不到CTcustomxmlblock类，查看tika-app-1.5.jar确实没有这个类，但是上方的测试代码执行没问题应该不是tika的jar包的问题，有可能是别的jar包冲突或者tika依赖的其他jar包缺少该类。经过查找资料，最终在某个网站看到该问题的解决方法。虽然报错不一样，但是问题解决的方向是对的，最终按照帖子提供的方法解决了项目中的错误。
以下摘录自http://www.ithao123.cn/content-8682335.html网址：

在使用poi对office文档进行操作的时候，具体一点，就是在调用CTP.getBookmarkStartList()的时候，出现了一个异常，粘贴如下：

Exception in thread “main” java.lang.NoClassDefFoundError: org/openxmlformats/schemas/wordprocessingml/x2006/main/impl/CTPImpl1BookmarkStartListatorg.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTPImpl.getBookmarkStartList(UnknownSource)atpac.ReportGenerator.handleParagraph(ReportGenerator.java:152)atpac.ReportGenerator.getUniqueData(ReportGenerator.java:129)atpac.ReportGenerator.main(ReportGenerator.java:62)Causedby:java.lang.ClassNotFoundException:org.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTPImpl1BookmarkStartList
at java.net.URLClassLoader1.run(UnknownSource)atjava.net.URLClassLoader1.run(Unknown Source)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(Unknown Source)
at java.lang.ClassLoader.loadClass(Unknown Source)
at sun.misc.Launcher$AppClassLoader.loadClass(Unknown Source)
at java.lang.ClassLoader.loadClass(Unknown Source)

这个问题折腾了我一天，因为这里提到的这个class实际上在我引用的poi-ooxml-schemas-3.12-20150511.jar包里面是存在的，但是却一直报找不到类的异常。然后查资料的时候看到有人说还需要引用ooxml-schemas.jar这个包，然后我就百度了一下下载了一个1.0版的，结果还是老样子，然后就以为这个方向是错的。最后折腾了好久才在poi官网的FAQ部分看到了一个回答，链接为http://poi.apache.org/faq.html ，贴一下图：
这里写图片描述
根据这个回答，poi提供的那个ooxml-schemas.jar包是精简版的，为了节省空间，里面放的只有一些常用的模块，所以要引用另外一些功能的话就需要引用完全版的ooxml-schemas.jar包。另外，3.5和3.6版本的poi对应的完整版的jar包是1.0版的，如果要用3.7及以上的，就需要用ooxml-schemas-1.1.jar这个包了，这样导入之后果然就好了。
总结一下，遇到这个问题需要导入ooxml-schemas-1.1.jar这个包，直接百度一下就可以下载到，最好去掉poi提供的那个同名的包，我这里就是去掉poi-ooxml-schemas-3.12-20150511.jar这个包。