LLM工程
文章平均质量分 93
大语言模型工程教程
橙狮科技
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
快速理解LLM的temperature和top_p参数
摘要:本文介绍了LLM生成文本时的两个关键参数——temperature和top_p的作用机制。temperature控制输出的随机性,值越高生成结果越多样化;top_p通过核采样技术限定候选词元范围,值越高可选词汇越广。文章结合示意图展示了参数调整对词元选择的影响,并提供了不同场景下的参数配置建议:头脑风暴适合双高参数,邮件生成需要双低设置,创意写作宜高temperature低top_p,翻译则推荐低temperature高top_p的组合。这两个参数的灵活运用能有效调控生成文本的创造性与确定性。原创 2025-07-20 18:31:28 · 858 阅读 · 0 评论 -
使用 GPTQ 进行 4 位 LLM 量化
在本文中,我们介绍了 GPTQ 算法,这是一种在消费级硬件上运行 LLM 的最先进的量化技术。我们展示了它如何基于具有任意顺序洞察、惰性批量更新和 Cholesky 重构的改进 OBS 技术解决分层压缩问题。这种新颖的方法**显著降低了内存和计算要求**,使 LLM 可供更广泛的受众使用。原创 2025-02-19 12:02:23 · 1603 阅读 · 0 评论 -
使用 MergeKit 创建专家组合 (MoE)
在本文中,我们将详细介绍 MoE 架构的工作原理以及如何创建 frankenMoE。最后,我们将使用 MergeKit 制作自己的 frankenMoE ,并在多个基准上对其进行评估。该代码可在 Google Colab 上的一个名为LazyMergeKit的包装器中找到。原创 2025-02-19 11:36:34 · 1218 阅读 · 0 评论 -
在 Colab Notebook 中微调您自己的 Llama 2 模型
在本文中,我们将了解指令调整为何有效,以及如何在 Google Colab 笔记本中实现它以创建您自己的 Llama 2 模型。翻译 2025-02-13 21:02:36 · 215 阅读 · 0 评论 -
LLM Course系列:使用 Unsloth 高效地微调 Llama 3.1
在本文中,我们将全面概述监督微调。我们将将其与即时工程进行比较,以了解何时使用它有意义,详细介绍主要技术及其优缺点,并介绍主要概念,例如 LoRA 超参数、存储格式和聊天模板。最后,我们将通过在 Google Colab 中对 Llama 3.1 8B 进行微调,并使用 Unsloth 进行最先进的优化,在实践中实现它。翻译 2025-02-13 18:42:07 · 490 阅读 · 0 评论
分享