项目需求::
- 构建一个类百度文库的小型文件检索系统
架构设计图::
文件内容抽取:
- 内容解析提取工具:Tika
- 文件类型检测、文件内容提取的库
- Lucene 子项目、java 写成
- 广泛应用于搜索引擎、内容分析、文本翻译、数字资产管理等多个领域
- Tika 还可以解析图像、音频、视频等多种文件
参见代码::https://gitee.com/jly521/TikaDemo.git
自动解析:
- 两种:
- Tika tika = new Tika();
- Parser parser = new AutoDetectParser();
参见代码::https://gitee.com/jly521/filesearchnew.git