java tika 读取文件_记：Lucene+Tika文档内容提取

最新推荐文章于 2023-04-24 17:51:39 发布

盖亚能量炮

最新推荐文章于 2023-04-24 17:51:39 发布

阅读量407

点赞数

文章标签： java tika 读取文件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29866423/article/details/114545127

版权

Tika是一个用于文件类型检测和文件内容提取的库，具有以下提点。

统一解析接口。Tika所有第三方解析库被封装在一个单一的解析器中，由于这个特征，用户减少了根据不同文档类型选择合适的解析库的负担。

低内存占用。因为统一的解析器接口，Tika消耗的内存资源更少，也很容易嵌入各种Java应用程序。

快速处理。应用中内容检测和信息提取可以预期，处理速度快。

灵活元数据。Tika理解所有用来描述文件的元数据模型。

解析器集成。Tika可以使用单一应用程序中每个文件类型的各种解析器库。

MIME类型检测。Tika可以检测并从所有包括在MIME标准媒体类型中提取内容。

语言检测。Tika包含语言识别功能，因此可以在一个多语种网站基于语言类型的文档中使用。

public static void main(String[] args) throws IOException, TikaException, SAXException {

//新建存放各种文件的file文件夹

File files = new File("/Users/fxl/IdeaProjects/learning-pro/lucene/src/main/resources/doc");

if (!files.exists()) {

System.out.println("文件夹不存在，请检查！");

System.exit(0);

}

File[] fileArr = files.listFiles();

//方法一

// Tika tika = new Tika();

// String fileContent;

// for (File f : fileArr) {

// fileContent = tika.parseToString(f);

// System.out.println("Extracted Content: " + fileContent);

// }

//方法二

BodyContentHandler handler = new BodyContentHandler(10 * 1024 * 1024);

//创建元数据

Metadata metadata = new Metadata();

FileInputStream fileInputStream;

Parser parser = new AutoDetectParser();

ParseContext parseContext = new ParseContext();

for (File f : fileArr) {

fileInputStream = new FileInputStream(f);

parser.parse(fileInputStream, handler, metadata, parseContext);

System.out.println(f.getName() + ":\n" + handler.toString());

}

}

盖亚能量炮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java tika 读取文件_记：Lucene+Tika文档内容提取

Tika是一个用于文件类型检测和文件内容提取的库，具有以下提点。统一解析接口。Tika所有第三方解析库被封装在一个单一的解析器中，由于这个特征，用户减少了根据不同文档类型选择合适的解析库的负担。低内存占用。因为统一的解析器接口，Tika消耗的内存资源更少，也很容易嵌入各种Java应用程序。快速处理。应用中内容检测和信息提取可以预期，处理速度快。灵活元数据。Tika理解所有用来描述文件的元数据模型。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。