“Datawhale AI夏令营第三期”-AI 逻辑推理方向 task3 笔记

最新推荐文章于 2024-08-31 23:13:29 发布

无敌Type-R

最新推荐文章于 2024-08-31 23:13:29 发布

阅读量280

点赞数 7

文章标签：人工智能笔记

本文链接：https://blog.csdn.net/2301_80349401/article/details/140865598

版权

班级群1-yujiarui

baseline02 微调

微调介绍

1.1 大语言模型微调

大模型微调（Fine-tuning）是一种技术，通过在预训练的大型语言模型上使用特定数据集进行进一步训练，使模型能够更好地适应特定任务或领域。

其核心原理在于，机器学习模型只能代表其训练数据的逻辑和理解。对于未见过的数据样本，模型可能无法准确识别或理解。对于大型模型而言，它们虽然能够处理广泛的语言信息并进行流畅的对话，但在特定场景下可能无法提供准确的答案。

例如，一个通用的大型语言模型虽然包含丰富的语言信息，但在医药领域的特定问题上可能表现不佳。如果需要一个能够准确回答患者问题的医药应用，就需要为这个通用模型提供大量新的医药数据进行学习和理解。比如，当患者询问“布洛芬能否与感冒药同时服用？”时，为了确保模型能够给出正确的回答，我们需要对基础模型进行微调。

1.2 微调模型对于本次比赛有什么意义

上下文理解提升：微调过程中使用的特定数据集可以帮助模型更好地理解特定任务的上下文，从而在推理时能够考虑到更多的相关信息和细节。
性能优化：微调可以针对特定任务优化模型的性能，使其在处理该任务时达到更高的准确率和更低的错误率。这对于需要高可靠性和准确性的推理任务尤为重要。
减少数据需求：对于一些数据稀缺的领域或任务，微调可以在相对较少的数据量下实现较好的性能提升，因为模型已经具备了大量的通用语言知识。
适应性增强：微调使模型能够更好地适应特定用户或场景的需求，提供更加个性化和定制化的推理服务。

首先导入git库

git clone https://www.modelscope.cn/datasets/Datawhale/DW2024_Complex_reasoning_ability_assessment_qwen2-7b-lora.git

Lora介绍

lora代码操作

vllm加速

LLM调用

部分项目截图：

无敌Type-R

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
“Datawhale AI夏令营第三期”-AI 逻辑推理方向 task3 笔记

大模型微调（Fine-tuning）是一种技术，通过在预训练的大型语言模型上使用特定数据集进行进一步训练，使模型能够更好地适应特定任务或领域。其核心原理在于，机器学习模型只能代表其训练数据的逻辑和理解。对于未见过的数据样本，模型可能无法准确识别或理解。对于大型模型而言，它们虽然能够处理广泛的语言信息并进行流畅的对话，但在特定场景下可能无法提供准确的答案。例如，一个通用的大型语言模型虽然包含丰富的语言信息，但在医药领域的特定问题上可能表现不佳。
复制链接

扫一扫