Langchain-ChatGLM配置文件参数测试

最新推荐文章于 2024-07-13 17:15:00 发布

Raine_Yang

最新推荐文章于 2024-07-13 17:15:00 发布

阅读量3.6k

点赞数

分类专栏：实习记录文章标签： langchain chatGLM 人工智能统计 LLM

本文链接：https://blog.csdn.net/Raine_Yang/article/details/131707718

版权

本文通过实验研究Langchain-ChatGLM模型中CHUNK_SIZE、VECTOR_SEARCH_TOP_K和VECTOR_SEARCH_SCORE_THRESHOLD参数对对话效果的影响。采用《深度学习入门：基于Python的理论与实现》为知识库，设计了20个问题进行测试。实验结果显示，尽管参数变化导致模型回答内容长度和服务器显存消耗有所改变，但对总体回答准确性无显著影响。此外，实验指出参数选取应考虑资源消耗，同时指出了实验存在的局限性，如知识库单一、评分主观性和模型历史对话的影响等。

摘要由CSDN通过智能技术生成

1 已知可能影响对话效果的参数（位于configs/model_config.py文件）：

# 文本分句长度 
SENTENCE_SIZE = 100
  # 匹配后单段上下文长度 
CHUNK_SIZE = 250 
# 传入LLM的历史记录长度 
LLM_HISTORY_LEN = 3 
# 知识库检索时返回的匹配内容条数 
VECTOR_SEARCH_TOP_K = 5 
# 知识检索内容相关度 Score, 数值范围约为0-1100，如果为0，则不生效，经测试设置为小于500时，匹配结果更精准 
VECTOR_SEARCH_SCORE_THRESHOLD = 0

其中可能对读取知识库影响较大的变量有CHUNK_SIZE（单段参考上下文的长度

最低0.47元/天解锁文章

Raine_Yang

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Langchain-ChatGLM配置文件参数测试

其中可能对读取知识库影响较大的变量有CHUNK_SIZE（单段参考上下文的长度），VECTOR_SEARCH_TOP_K（知识库参考文段数量），和VECTOR_SEARCH_SCORE_THRESHOLD（知识库匹配内容需要达到的最小相关度）。值得注意的是对于内容型问题，四个模型见差距较大，并且模型1和模型2，模型和模型3有较大的组间差距。另外值得注意的是，在第2，3组实验中，较高的CHUNK_SIZE和VECTOR_SEARCH_TOP_K使得模型回复内容明显较长，使得模型对服务器显存消耗明显增大。
复制链接

扫一扫

专栏目录