deepseek本地部署—搭建个人AI知识库

1.下载AnythingLLM

官网链接

选择ollama,在此步骤之前,请在本地安装deepseek模型,具体安装步骤可参照上一篇帖子

点击右边箭头,一直下一步

2.完成模型配置

选择 Ollama 中的 shaw/dmeta-embedding-zh,主要原因是它对于中文支持比较好。如果英文比较好,也可以选择 nomic-embed-text。 具体效果可以自行实践。

在此步骤之前,请在本地安装shaw/dmeta-embedding-zhnomic-embed-text,安装命令在模型详情页面

记得保存更改

3.上传文档,投喂数据

选中需要的文档,然后点击Move to Workspace,在右边区域点击Save and Embed进行向量化处理。

提示成功后。点击New Thread开始对话。询问文档中的相关内容,即可看到相应回答。

### 使用 Dify、Ollama 和 Embedding 的技术文档与实现方法 #### 安装和配置大型语言模型 (LLM) 为了构建高效的知识管理系统,首先需要安装两个主要的大规模预训练模型:一个是用于对话交互的语言模型(LLM),另一个是专门处理文本嵌入的模型。具体来说,在实际操作中可以选择 QWEN2.5 作为 LLM 模型,并采用 shaw/dmeta-embedding-zh-small 来执行文本片段化并建立知识库[^2]。 ```bash ollama pull qwen-2_5 ollama pull shaw/dmeta-embedding-zh-small ``` 这些命令会从指定仓库下载所需的模型版本到本地环境中,以便后续调用和服务部署。 #### 构建本地知识库 借助于 Ollama 提供的强大功能以及 DeepSeek 平台的支持,能够快速创建定制化的本地知识库解决方案。此过程不仅限于简单的数据存储,更重要的是实现了智能化的数据管理和检索机制。对于任何希望提高内部资料查询速度的企业而言,这无疑是一个极具吸引力的选择[^3]。 当涉及到具体的实施细节时,则需依赖像 Dify 这样的工具来辅助完成整个流程的设计与开发工作。由于其开源特性,开发者可以根据项目需求灵活调整源码中的各项参数设置,从而更好地适配特定应用场景下的性能优化目标。 #### 实现智能分割文件形成知识库 利用 `shaw/dmeta-embedding-zh-small` 可以有效地将输入文本转换成向量表示形式,进而支持更精准的内容匹配算法。这种做法特别适用于多篇幅较长的文章或书籍章节之间的相似度计算任务。通过预先定义好的规则集指导程序如何切割原始材料成为合理大小的小节,再由该 embedding 模型负责编码每一段文字特征,最终达到自动分类整理的目的。 ```python from sentence_transformers import SentenceTransformer, util model = SentenceTransformer('shaw/dmeta-embedding-zh-small') sentences = ["这是一个测试句子", "这是另一句不同的话"] embeddings = model.encode(sentences) cosine_scores = util.pytorch_cos_sim(embeddings[0], embeddings[1]) print(f"Cosine similarity score between two sentences is {cosine_scores.item()}") ``` 上述代码展示了如何加载预训练中文 embedding 模型并对给定语料进行向量化处理的过程。这里选用余弦距离衡量两句话之间语义上的接近程度,这对于评估信息关联性和推荐系统设计具有重要意义。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值