Ollama+MaxKB的知识库分段调优

最新推荐文章于 2025-04-09 21:41:36 发布

南太湖小蚂蚁

最新推荐文章于 2025-04-09 21:41:36 发布

阅读量1.6k

点赞数 2

分类专栏：人工智能文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42255757/article/details/145336184

版权

人工智能专栏收录该内容

32 篇文章

订阅专栏

上次我发表了一篇题为《使用Ollama搭建自己的简单知识库》的文章，发现大家在使用过程中遇到了不少问题，我自己也遇到过类似的问题。特别是当我在MaxKB的知识库中导入一篇文章后，在应用中提问，得到的回答却答非所问，完全达不到我的要求。今天我就想分析一下这个问题以及如何改进。

一般来说，这种问题根源在于文章上传的分段不佳，由于分段不佳导致的命中率低，因此答非所问。下面我们来复现一下这个问题。

首先，导入一篇文档。

下一步采用推荐的智能分段方式进行分段：

可以看到，分段结果很杂乱无章，甚至可以看到出现了乱码：

而乱码部分的实际内容如下：

也就是说，这种知识库导入方式对于公式的解析其实并不完善。还是对于文本更加方便。

而且，同一篇文档，如果可以用word形式上传最好使用word，而不是PDF，因为PDF中可能文字是以图片形式存在的，而且可能会混进很多不同的格式符号，导致分段的错误。

可以看到，当我换成word之后，分段还是比较清晰的。

可以看到，同一篇文章，用word和PDF得到的分段数差距很大，字符数也有不小的差别，所以得到的分段是更清晰的。

这种是“智能分段”模式，也可以使用“高级分段”模式，选择我们需要的分段标识符来进行分段。

这个分段数就更多了。不过这种方式要慎用，最好自己提前处理一下，否则换行或者回车符并不一定是你想要的分段方式，容易造成一段完整的语义段落被切分成很多无意义的分段。

现在再来提问，效果比之前更好：

同时，在调试窗口我们也可以更加直观的看到问答的结果，以及引用的分段：

用本地未加入知识库的原始ollama大模型试试：

发现回答的非常搞笑，它完全不知道我在说什么，仅仅是把我的问题复述了一遍，说明采用我们分段后的知识库还是有效果的。

南太湖小蚂蚁

博客等级

码龄7年

47
原创

782
点赞

835
收藏

950
粉丝

关注

私信

热门文章

分类专栏

最新评论

语义分割——VitSeg
小女孩真可爱: 想问一下你用的是什么损失函数？
使用idea社区版开发SpringBoot应用的流程
兵971: 感谢大佬
语义分割——SegNet
征途黯然.: 如何在SegNet中有效利用最大池化索引进行上采样，以增强图像分割的边界准确性，同时探讨其相较于FCN在边界处理上的优势与局限性？
自注意力简介
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
深度学习中权重初始化的重要性
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。