- 博客(3)
- 收藏
- 关注
原创 vllm中的sampling_params参数详解(1)
摘要:sampling_params是vLLM中控制文本生成的核心参数集,包含多个关键参数:temperature(控制随机性,0-1调节确定性/创意性)、top_p(核采样控制候选token范围)、top_k(限制候选token数量)、max_tokens(限制生成长度)和stop(设置停止符)。不同参数组合适用于不同场景:低值参数适合问答/翻译等确定性任务(如temperature=0.2),高值参数适合创意生成(如temperature=0.9)。
2025-07-22 15:14:29
1853
原创 VllM配置大模型LLM相关参数解释
本文介绍了vLLM框架中LLM对象的核心参数配置。关键参数包括:model_path(必选,指定模型路径)、trust_remote_code(用于加载自定义代码,默认False)、gpu_memory_utilization(显存利用率,建议0.7-0.9)、max_model_len(输入输出最大长度)。可选参数如max_num_seqs(生成答案数量)、enforce_eager(实时推理模式)、disable_log_stats(禁用日志统计)可根据需求配置。文章特别提醒trust_remote_c
2025-07-22 11:36:16
2526
原创 对RAG、LLM、Embedding、向量数据库的通俗、快速、简单理解
本文介绍了RAG框架与LLM的关系,以及Embedding与向量数据库的工作原理。RAG框架通过Embedding将用户问题转化为向量,在向量数据库中检索语义相近的资料作为上下文提供给LLM,使LLM能结合外部信息回答新问题,就像"开卷考试"增强了LLM的能力。LLM是经过海量数据训练的大语言模型,具备上下文学习、指令遵循和逐步推理能力。Embedding将各种信息转化为高维向量(如1536维),向量数据库则通过计算向量距离来检索相关信息,使计算机能够理解和处理复杂的语义信息。
2025-07-11 08:51:09
682
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅