Tika解析抽取docx格式文档时提示找不到类

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。

在当前的0.2-SNAPSHOT版本中, Tika提供了对如下文件格式的支持:
● PDF - 通过Pdfbox
● MS-* - 通过POI
● HTML - 使用nekohtml将不规范的html整理成为xhtml
● OpenOffice 格式 - Tika提供
● Archive - zip, tar, gzip, bzip等
● RTF - Tika提供
● Java class - Class解析由ASM完成
● Image - 只支持图像的元数据抽取
● XML
Tika的API十分便捷,核心是Parser interface,其中定义了一个parse方法:
public void parse(InputStream stream, ContentHandler handler, Metadata metadata)
用stream参数传递需要解析的文件流, 文本内容会被传入handler,而元数据会更新至metadata。

可以使用Tika的ParserUtils工具来根据文件的mime-type来得到一个适当的Parser来进行解析工作。或者Tika还提供了一个AutoDetectParser根据不同的二进制文件的特殊格式 (比如说Magic Code),来寻找适合的Parser。
提示:主要tika-xx.jar,解析相应的文件必须有相应的jar.例如:excel文件必须用到poi-xx.jar
相关包下载地址http://pan.baidu.com/s/1sl2B2c1

package tika;

import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;

import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;

public class Test {
	
	@org.junit.Test
	public void testTika(){
		File file = new File("D:\\source\\090f1f0e80008727.docx");
		try {
			String fulText = this.parseFile(file);
			System.out.println(fulText);
		} catch (Exception e) {
			e.printStackTrace();
		}
		
	}

	/**
	 * 文本抽取基础方法
	 * 
	 * @param filePath 文本路径
	 * @return
	 */
	private String parseFile(File filePath) throws Exception{
		Parser parser = new AutoDetectParser();
		//创建输入流
		InputStream input = null;
		try {
			input = new FileInputStream(filePath);
			//设置Metadata
			Metadata metadata = new Metadata();
			metadata.set(Metadata.CONTENT_ENCODING, "utf-8");
			metadata.set(Metadata.RESOURCE_NAME_KEY, filePath.getName());
			// 当文件大于100000时,new BodyContentHandler(1024*1024*10);(可以替换为WriteOutContentHandler)
			ContentHandler handler = new BodyContentHandler(1024*1024*10);
			ParseContext context = new ParseContext();
			context.set(Parser.class, parser);
			//解析文档
			parser.parse(input, handler, metadata, context);
			
			return handler.toString();
		} catch (Exception e) {
			throw new Exception();
		} finally {
			if(input != null){
				try {
					input.close();
				} catch (IOException e) {
					e.printStackTrace();
				}
			}
		}
	}
}

但是后期把这个方法集成到项目中的时候却报错了,java.lang.NoClassDefFoundError: org/openxmlformats/schemas/wordprocessingml/x2006/main/CTcustomxmlblock

错误提示是找不到CTcustomxmlblock类,查看tika-app-1.5.jar确实没有这个类,但是上方的测试代码执行没问题应该不是tika的jar包的问题,有可能是别的jar包冲突或者tika依赖的其他jar包缺少该类。经过查找资料,最终在某个网站看到该问题的解决方法。虽然报错不一样,但是问题解决的方向是对的,最终按照帖子提供的方法解决了项目中的错误。
以下摘录自http://www.ithao123.cn/content-8682335.html网址:

在使用poi对office文档进行操作的时候,具体一点,就是在调用CTP.getBookmarkStartList()的时候,出现了一个异常,粘贴如下:


Exception in thread “main” java.lang.NoClassDefFoundError: org/openxmlformats/schemas/wordprocessingml/x2006/main/impl/CTPImpl1BookmarkStartListatorg.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTPImpl.getBookmarkStartList(UnknownSource)atpac.ReportGenerator.handleParagraph(ReportGenerator.java:152)atpac.ReportGenerator.getUniqueData(ReportGenerator.java:129)atpac.ReportGenerator.main(ReportGenerator.java:62)Causedby:java.lang.ClassNotFoundException:org.openxmlformats.schemas.wordprocessingml.x2006.main.impl.CTPImpl1BookmarkStartList
at java.net.URLClassLoader1.run(UnknownSource)atjava.net.URLClassLoader1.run(Unknown Source)
at java.security.AccessController.doPrivileged(Native Method)
at java.net.URLClassLoader.findClass(Unknown Source)
at java.lang.ClassLoader.loadClass(Unknown Source)
at sun.misc.Launcher$AppClassLoader.loadClass(Unknown Source)
at java.lang.ClassLoader.loadClass(Unknown Source)


这个问题折腾了我一天,因为这里提到的这个class实际上在我引用的poi-ooxml-schemas-3.12-20150511.jar包里面是存在的,但是却一直报找不到类的异常。然后查资料的时候看到有人说还需要引用ooxml-schemas.jar这个包,然后我就百度了一下下载了一个1.0版的,结果还是老样子,然后就以为这个方向是错的。最后折腾了好久才在poi官网的FAQ部分看到了一个回答,链接为http://poi.apache.org/faq.html ,贴一下图:
这里写图片描述
根据这个回答,poi提供的那个ooxml-schemas.jar包是精简版的,为了节省空间,里面放的只有一些常用的模块,所以要引用另外一些功能的话就需要引用完全版的ooxml-schemas.jar包。另外,3.5和3.6版本的poi对应的完整版的jar包是1.0版的,如果要用3.7及以上的,就需要用ooxml-schemas-1.1.jar这个包了,这样导入之后果然就好了。
总结一下,遇到这个问题需要导入ooxml-schemas-1.1.jar这个包,直接百度一下就可以下载到,最好去掉poi提供的那个同名的包,我这里就是去掉poi-ooxml-schemas-3.12-20150511.jar这个包。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值