“Datawhale AI夏令营第三期”-AI 逻辑推理方向 task3 笔记

班级群1-yujiarui

baseline02 微调

微调介绍

1.1 大语言模型微调

大模型微调(Fine-tuning)是一种技术,通过在预训练的大型语言模型上使用特定数据集进行进一步训练,使模型能够更好地适应特定任务或领域。

其核心原理在于,机器学习模型只能代表其训练数据的逻辑和理解。对于未见过的数据样本,模型可能无法准确识别或理解。对于大型模型而言,它们虽然能够处理广泛的语言信息并进行流畅的对话,但在特定场景下可能无法提供准确的答案。

例如,一个通用的大型语言模型虽然包含丰富的语言信息,但在医药领域的特定问题上可能表现不佳。如果需要一个能够准确回答患者问题的医药应用,就需要为这个通用模型提供大量新的医药数据进行学习和理解。比如,当患者询问“布洛芬能否与感冒药同时服用?”时,为了确保模型能够给出正确的回答,我们需要对基础模型进行微调。

1.2 微调模型对于本次比赛有什么意义

  1. 上下文理解提升:微调过程中使用的特定数据集可以帮助模型更好地理解特定任务的上下文,从而在推理时能够考虑到更多的相关信息和细节。

  2. 性能优化:微调可以针对特定任务优化模型的性能,使其在处理该任务时达到更高的准确率和更低的错误率。这对于需要高可靠性和准确性的推理任务尤为重要。

  3. 减少数据需求:对于一些数据稀缺的领域或任务,微调可以在相对较少的数据量下实现较好的性能提升,因为模型已经具备了大量的通用语言知识。

  4. 适应性增强:微调使模型能够更好地适应特定用户或场景的需求,提供更加个性化和定制化的推理服务。

首先导入git库

git clone https://www.modelscope.cn/datasets/Datawhale/DW2024_Complex_reasoning_ability_assessment_qwen2-7b-lora.git

Lora介绍

lora代码操作

vllm加速

LLM调用

部分项目截图:

  • 7
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值