要构建自己的知识库,就少不了要支持文档内容提取,将文档内容提取后,再进行向量化,然后存储到向量数据库中,就完成了知识库的搭建。
接下来演示如何使用JBolt AI进行word 文档内容提取
前置准备
- 一个word文档,里面有文字,有图片等,如下图所示:
3. JBolt AI 我们自研的,基于JBolt平台底座打造的Java企业级AI数智化应用极速开发平台,提供AI辅助系统设计,可视化代码生成与自动化模块构建,零代码AI知识库应用开发,零代码AI智能体(Agent)工具箱等核心能力,是国内领先的Java企业级AIGS解决方案。
开搞
JBoltText.extract(new File("d:/download/data/chatgpt.docx")).onSuccess((e, result) -> {
System.out.println("提取到内容:");
System.out.println(result.getContent());
}).onFile((e, file) -> {
//如果检测到文件,比如图片、音频、视频、附件等,将它保存到硬盘
FileUtil.writeFromStream(file.getInputStream(), new File("d:/download/tmp/chatgpt/" + file.getFileName()));
//然后将图片转为文本,按照原文顺序输出
return "["+file.getFileName()+"](http://test.com/chatgpt/" + file.getFileName() + ")";
}).publish().await();
可以看到,word文档中的图片,成功下载保存,并且转为了我们自定义的另一种文本,替换了原来的图片。
通常,我们是会将检测到的文件,保存到文件服务器,然后转为可访问url,进行替换的。
JBolt AI 支持图片OCR,word文档内容提取,excel文档内容提取,ppt文档内容提取,pdf文档内容提取,markdown文档内容提取,txt内容提取,网页内容提取以及其他多种格式的文档内容提取。
往期文章:
JAVA开发AI应用(一):调用大模型实现基本聊天
JAVA开发AI应用(二):调用大模型实现上下文聊天
JAVA开发AI应用(三):调用大模型实现多模态聊天
JAVA开发AI应用(四):实现复杂的业务流程1
JAVA开发AI应用(五):实现复杂的业务流程2 意图识别
AVA开发AI应用(六):调用Embedding大模型实现RAG(检索增强)
关于我们
我们是山东向量空间人工智能科技有限公司,一家专注于做人工智能领域应用和解决方案的公司,欢迎大家一起交流。