L1760666494-CSDN博客

原创大语言模型微调实战系列（三）模型评估篇

本文介绍了一套基于亚马逊云科技的大语言模型自动化评估方案。该方案通过集成Promptfoo工具与Amazon Bedrock服务，实现了从数据输入到结果分析的全流程评估。方案采用两种评估方式：人工评估（准确但昂贵）和自动评估（高效标准化）。环境部署包括基础设施准备、代码克隆、模型配置和测试数据集创建。评估结果显示，Claude Sonnet 3.5在通过率、响应质量和稳定性上均优于Llama 3.2。该自动化方案将主观评估转化为量化指标，提高了评估效率，为模型选择和优化提供了可靠依据，满足了生成式AI快速发

2025-10-17 10:12:26 1066

原创大语言模型微调实战系列（二）模型微调篇

本文介绍了大语言模型微调的关键步骤和工具选择。主要内容包括：1.模型微调框架选择，推荐LLaMA-Factory；2.微调方法对比（全参数微调、PEFT、LoRA等）及其适用场景；3.算力需求估算；4.具体微调方案（SageMaker Training Job和ModelHub无代码平台）；5.超参数调整策略；6.指标监控工具（CloudWatch和Weights & Biases）。文章强调模型微调是一个迭代过程，需要根据任务需求和资源情况选择合适方法，并提供了完整的微调优化建议。

2025-10-17 10:08:58 875

原创大语言模型微调实战系列（一）数据准备篇

本文探讨了大型语言模型(LLM)微调的关键技术与数据准备流程。微调能增强模型在垂直领域、特定任务、语言本地化等方面的能力，适用于心理咨询、虚拟教师等场景。高质量数据准备包括：1)数据获取(网络抓取、生产数据、社交平台迁移、公开数据集)；2)数据清洗；3)质量控制；4)格式化；5)数据扩增(同义词替换、回译、LLM生成等)。强调数据质量与多样性的平衡，以及持续迭代优化的重要性。精心准备的数据是提升微调效果的基础。

2025-10-17 10:04:12 668

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 大语言模型微调实战系列（三）模型评估篇

原创 大语言模型微调实战系列（二）模型微调篇

原创 大语言模型微调实战系列（一）数据准备篇

空空如也

空空如也

原创大语言模型微调实战系列（三）模型评估篇

原创大语言模型微调实战系列（二）模型微调篇

原创大语言模型微调实战系列（一）数据准备篇