- 博客(3)
- 收藏
- 关注
原创 大语言模型微调实战系列(三)模型评估篇
本文介绍了一套基于亚马逊云科技的大语言模型自动化评估方案。该方案通过集成Promptfoo工具与Amazon Bedrock服务,实现了从数据输入到结果分析的全流程评估。方案采用两种评估方式:人工评估(准确但昂贵)和自动评估(高效标准化)。环境部署包括基础设施准备、代码克隆、模型配置和测试数据集创建。评估结果显示,Claude Sonnet 3.5在通过率、响应质量和稳定性上均优于Llama 3.2。该自动化方案将主观评估转化为量化指标,提高了评估效率,为模型选择和优化提供了可靠依据,满足了生成式AI快速发
2025-10-17 10:12:26
1066
原创 大语言模型微调实战系列(二)模型微调篇
本文介绍了大语言模型微调的关键步骤和工具选择。主要内容包括:1.模型微调框架选择,推荐LLaMA-Factory;2.微调方法对比(全参数微调、PEFT、LoRA等)及其适用场景;3.算力需求估算;4.具体微调方案(SageMaker Training Job和ModelHub无代码平台);5.超参数调整策略;6.指标监控工具(CloudWatch和Weights & Biases)。文章强调模型微调是一个迭代过程,需要根据任务需求和资源情况选择合适方法,并提供了完整的微调优化建议。
2025-10-17 10:08:58
875
原创 大语言模型微调实战系列(一)数据准备篇
本文探讨了大型语言模型(LLM)微调的关键技术与数据准备流程。微调能增强模型在垂直领域、特定任务、语言本地化等方面的能力,适用于心理咨询、虚拟教师等场景。高质量数据准备包括:1)数据获取(网络抓取、生产数据、社交平台迁移、公开数据集);2)数据清洗;3)质量控制;4)格式化;5)数据扩增(同义词替换、回译、LLM生成等)。强调数据质量与多样性的平衡,以及持续迭代优化的重要性。精心准备的数据是提升微调效果的基础。
2025-10-17 10:04:12
668
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅