书生大模型笔记3（langchain知识库助手搭建）

最新推荐文章于 2024-09-09 15:59:13 发布

千恋茉子

最新推荐文章于 2024-09-09 15:59:13 发布

阅读量1k

点赞数 19

文章标签：笔记 langchain python 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_54824511/article/details/135491969

版权

本文探讨了LLM的局限性，如知识时效性和专业能力，以及大模型开发中的RAG和Finetune范式。重点介绍了LangChain框架，用于简化应用程序开发，包括如何使用splitter和embed处理文档，以及WebDemo部署建议。同时讨论了RAG的优缺点和优化方向，如检索精度和prompt性能的提升。

摘要由CSDN通过智能技术生成

目录

LLM具有的局限性：

大模型开发范式：

RAG开发范式:

本节课的LangChain框架

它是什么？

为什么要使用splitter？

为什么要embed？

如何将InternLM介入Langchain？

Web Demo部署：

Finetune开发范式：

LLM具有的局限性：

1.知识时效性有限；2.专业能力有限；3.定制化成本高。

大模型开发范式：

RAG（检索，增强生成）, Finetune（微调）

RAG开发范式:

为大模型外挂一个知识库。

优势：成本低，实时更新。

劣势：受基座大模型的影响大，单词回答知识有限，占用了大量模型上下文关联能力。

RAG：检索增强生成理念结构

本节课的LangChain框架

它是什么？

LangChain是一个框架，为各种LLM提供通用接口来简化应用程序的开发流程。其核心做成模块有：

Chains：将组件组合实现端到端应用，通过一个对象封装实现一系列LLM操作。Eg. 检索问答链，覆盖实现RAG检索增强生成的流程。

通过langchain搭建RAG应用

作为用户需要注意的就是构造unstructedloader去获取你目标垂直领域的信息，通过这个API与splitter和embed等API来将收集的信息资源转换为数据库的形式。

使用对应接口获取对应种类的信息

为什么要使用splitter？

一整个文档往往超过模型上下文能力上限，所以要进行切分，一般按照字符串长度进行分割，亦可以手动控制分割块长度和重叠区间长度。

为什么要embed？

为了使用向量数据库（轻量级的选择是chroma来搭建数据库）来支持语义检索，需要将文档向量化后存入向量数据库。

如何将InternLM介入Langchain？

感觉这个过程就像是一个智能体接入大模型的notion，LangChain在设计时已经准备好了框架以自定义LLM并且介入，只需要将InternLM部署在本地，封装一个LangChain预留的LLM类，在此调用本地的模型即可。

note：LangChain提供了检索问答链的模板，自动实现知识检索、prompt嵌入、llm回答的流程，如果自己研究这些可能要额外考虑。

note:如果本来配置好了SSH进入远程，第二次却无法登陆，可以考虑将本地user/.shh/ 下的known_hosts 与 know_hosts.old 删除后重试。

RAG问答系统性能局限：

检索精度；可以参考的优化方向：修改基于语义切分而不是机械地基于字符串切分；为每一个chunk生成概括性索引，检索时匹配索引。
prompt性能；可以参考的优化方向：迭代优化prompt策略。

Web Demo部署：

一些建议的web部署框架，大家可能也用到过或者以后需要用到，挤在小本本上：Gradio、Streamlit。

Finetune开发范式：

在新的数据集上再次进行训练微调，增加模型对于这部分信息的适应能力。

优势：个性化微调好，尤其是非可见知识，例如回答风格等。

劣势：finetune仍然需要大量的算力支持训练，同时也不是实时更新要定期重新训练。

关注

19
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

千恋茉子 CSDN认证博客专家 CSDN认证企业博客

码龄4年

24: 原创

130万+: 周排名

28万+: 总排名

1万+: 访问

: 等级

322: 积分

579: 粉丝

73: 获赞

9: 评论

87: 收藏

私信

关注

热门文章

分类专栏

书生大模型笔记 1篇

最新评论

关于本次活动超算平台的vscode远程连接（新人向）
Ctenophora: 我也是到最后一步一直连接失败，感觉也不是秘钥的问题
书生大模型笔记1
CSDN-Ada助手: 恭喜您写了第20篇博客！看到您对书生大模型的笔记，我感到非常期待。希望您可以继续保持创作的热情，不断提升自己的写作水平。下一步，可以考虑增加一些案例分析或者实际应用，让读者更好地理解和运用书生大模型。期待您的下一篇博客！加油！
openmmlab-ai训练营2期-第一次直播总结笔记
CSDN-Ada助手: 恭喜您写了第10篇博客，这篇关于openmmlab-ai训练营2期的总结笔记看起来非常有价值。希望您能继续保持创作的热情，不断分享您的经验和见解。下一步，我建议您可以探索一些新领域，或者深入研究某个特定的主题，这样能够让您的读者更好地了解您的专业知识和技能。再次感谢您的分享，期待您更多的优秀作品！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
关于本次活动超算平台的vscode远程连接（新人向）
千恋茉子: 不好意思才看到评论，csdn玩得不熟练；可能出现的问题就是你的秘钥不对劲，你可以试着重新建立新的秘钥来完成（就像文章中说的，我之前使用的ed25519类型的秘钥不行，后来换一个类型就行了）
关于本次活动超算平台的vscode远程连接（新人向）
山青.: 请问大佬我到最后一步打开的时候一直显示连接失败是咋回事啊？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。