DeepSeek等大模型接入本地文件知识库,查询内容并生成大模型总结,很多朋友都有这方面的使用需求,过去四个多月到现在,我们开发了DeepSeekMine软件,专门给大家提供这方面的需求。
今天这篇文章给大家汇报下过去两周我们最新开发进度,即将支持所有主流操作系统:Windows10/11,Mac intel和M系列,Linux等系统,感兴趣的朋友可以看下。
Mac版镜像包可以添加下方获取:
1 功能更新
有些朋友可能是第一次接触 DeepSeekMine,它是一款本地化的知识库管理工具,支持对数百 GB 级别的文件系统进行快速查询,并结合大模型实现智能生成,如下单个知识库分类可以支持到最多1000个文件:
DeepSeekMine可以扩展N个这样的知识库,如下一共建立了5个分类知识库,AI论文文件夹,工作日志文件夹等,点击「新建」按钮即可创建第6个:
这次更新解决第一个问题:一次上传了很多文件,但再次回到界面只显示几个文件:
主要原因在于旧版本的本地知识库加载逻辑存在问题,而当前版本已彻底修复这一瓶颈。
DeepSeekMine 现在可以管理本地几百GB级别的大体量文件,相较于如 IMA(默认支持 2GB)这类在线知识库工具,展现出明显的本地化优势与扩展能力。
**解决第二个问题:**已有聊天信息缺失问题,修复后支持再次进入某个聊天窗口,已有聊天还会看到,如下所示:
第三个问题,是一个验证类。当某个知识库加载文件过多后,会不会出现过长的查询延时问题,我们做了测试,发现回复基本还能控制在秒级,响应依然迅速:
背后原因,所使用的RAG查询算法,具有很好的可扩展性,所以文件增多对其影响不大,后面我们会给出具体的测试报告。
第四个是新增的一个功能,支持对指定文件的RAG会话,如下图所示,默认支持对当前支持库下所有文件的查询,但是当勾选后,就会做到只对此文件做回答,如下所示:
!
也可以支持勾选多个文件,并在勾选的文件中做RAG检索生成,如下图所示:
**第五个问题,**托管文件夹上传,现在一次支持上传1000个文件,支持的文件类型目前包括15种:txt, md, log, py, js, ts, html, css, docx, xlsx, xls, pptx, pdf, csv, json:
一次上传44个文件:
接下来会支持png、jpg等图片图片格式、扫描版PDF等更多格式。
第六个问题,关于RAG回答问题的精度,我们又做了优化,目前轻量版虽然不支持嵌入向量,仅使用关键词+短语匹配+模糊查询,结合BM25算法,高效命中相关文档和片段:
如果大家使用更好的大模型,回答效果也会更好。
2 Docker镜像
第七个更新,也是这次升级另一个重大升级,就是我们制作了Docker镜像包,覆盖:Windows10/11,Mac Intel, Mac M系列,Linux等主流系统,全部支持。
换句话说,只要电脑能安装Docker的,DeepSeekMine就可以使用了,
现在大家只需下载打包好的DeepSeekMine镜像,然后一键解压缩此包,然后在Win双击install.bat文件,Mac执行install.sh文件:
然后一键就能启动DeepSeekMine了:
MAC电脑一键启动展示:
启动后直接进入软件主页面,如下所示:
Docker安装会比exe一键安装更加容易,exe一键安装我们还在内测,等完整测试完成后,我们第一时间发出来。
3 DeepSeekMine接下来更新计划
下面是我们部分升级计划,每天我们都在按照计划往前推进,如下所示:
比如,会逐步升级各个好用的MCP智能体到DeepSeekMine里,接入更加好用的大模型到DeepSeekMine里等等。
我们会加快开发速度,得益于DeepSeekMine开发团队整在逐步扩大,目前包括:算法、开发、自动化测试和运维,感谢参与其中的每一位小伙伴,大家因兴趣和乐于奉献聚到一起,让人倍感欣慰。
DeepSeekMine完整Docker一键镜像安装包目前还在内测中,现在已经上传了Mac版的镜像内测包(团队内部已经验证通过),大家想体验的可以试试,最晚后天我们发布所有平台的镜像包。
Mac版镜像包可以添加下方获取:
DeepSeekMine软件特色:1)完全本地运行,确保安全分析安全 2)支持几百G文件管理,较好的可扩展性 3)回答速度快,基本秒级回复,RAG精度够用。
最后总结一下
本文介绍了本地知识库管理软件 DeepSeekMine 的最新功能更新与问题修复,共计 7 项核心改进,包括:
1)修复了文件加载不全的问题,现在支持管理几百G级别的大型本地文件系统;2)修复了聊天记录丢失问题,支持知识库聊天窗口信息持久化保存;
3)优化了大文件数量下的查询性能,依然能保持秒级响应;4) 新增文件级别 RAG 查询功能,可指定单个或多个文件进行智能问答;
5)托管文件夹上传功能上线,单次支持上传上千文件,支持 15 种主流格式;6)检索算法优化,即使未启用嵌入向量,也能通过关键词 + BM25 准确命中文档;
7)发布全平台 Docker 镜像包,覆盖 Windows、macOS(Intel 与 M 系列)、Linux 系统,一键解压即可使用。
我们仍在持续迭代中,后续将接入更多大模型、更强大的 MCP 智能体能力,并持续提升精度与易用性。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型落地应用案例PPT👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈