实现思路
-
介绍
安装tika插件(还有其他类似插件),将文件进行base64转码,然后拿到字符串这时候去新增索引,插件会自动识别这个base64 然后会自动识别内容。剩下的跟操作普通的索引一样
实现过程
-
流程图
总结
-
方案确定
通过定时任务使用POI解析Word文档中内容,然后创建索引,搜索的时候在word的索引中进行检索。
参考链接
-
ES 附件搜索
https://blog.csdn.net/weixin_40007182/article/details/105858630
-
请问ElasticSearch中如何检索附件中的中文?
https://elasticsearch.cn/question/3275
-
elasticsearch使用附件进行中文检索,无法查询中文的问题。
https://elasticsearch.cn/question/1144
-
elasticsearch ingest-attachment 对于 word、pdf等文件内容的索引
https://blog.csdn.net/wenxindiaolong061/article/details/82562450
-
文件(txt,html,pdf,word…)导入到Elasticsearch实现全文检索
https://elasticsearch.cn/article/303