目录
背景
最近AI领域发展非常迅猛,但就我个人而言,多智体AI Agent是我最看好的一个方向。RAG作为AI Agent 推理,回答,再推理,再回答的一个重要应用,在未来各行业必将得到广泛应用。最近有项目,要求将以前存储在word中形成的知识库录入到RAG中,作为本地垂直化应用查询的一个重要手段,对项目起着举足轻重的作用。一般来说,LLM 基本处理的是语言编码问题。但由于我们的知识库中还有大量图片等信息,所以如果只是存储文本,那显然是不够的。另一个问题是,我们希望通过图片的搜索,能够反过来得到与之相关的或者直接能帮助我们求解的所有相关图片及对应的经验操作。其实这是一个系统工程。这个项目的RAG输入有两类:一类是word,另一类是pdf。今天重点解决word形成知识库的录入。如果说只是提取文字,那这个实现优雅而简单,一次遍历打开 word,根据 docx的 paragraph 读取 text,用 encoding model 转为向量存储模型就能搭建完成,如果你不清楚怎么做,可以看看我前面的文章。但这次需要解决的是word 中文字与图片的关联处理。并且word 中的图片不能随意存储,因为你要与和他关联的问题及内容相匹配。实际上,对于图搜图的过程,你如果看了本专栏前面的文章,其做法应该不陌生,不清楚可以看:Milvus 实践(1) --- 文本-图片交互式s