mindformers套件背后工具原理的新手友好认识讲解

风一般的剑刃

于 2024-10-09 02:46:23 发布

阅读量687

点赞数 22

分类专栏：大模型文章标签：深度学习语言模型机器学习

本文链接：https://blog.csdn.net/qq_45131033/article/details/142730736

版权

前言

相信对于新入门大模型微调和应用的小伙伴来说，网上的一些教程更多的是告诉怎么使用或者对大模型算法的研究，但是这样的问题是如果没有跟着系统的教程过度，码友们特别是刚入门大模型使用的小白们学到的东西很朦胧或者是不能理解，这篇文章主要是带大家浅浅认识一下一些大模型框架或者套件的使用的背后组成原理。

简介

这次教程是基于昇思国产深度学习框架（但是讲的东西都是比较普适的，最后我会发散的），先简单给大家回顾介绍一下什么是mindspore和mindformers及其关系吧

MindSpore 是由华为公司开发并开源的新一代全场景人工智能（AI）计算框架。它于2019年8月首次推出，并在2020年3月28日正式宣布开源。MindSpore 的设计目标是实现易开发、高效执行和全场景统一部署，以支持从端侧到边缘再到云端的各种设备。

简单的理解呢，就是相当于国产的pytorch（仅仅是简单这样认为哈，还是很多不一样的）

MindFormers 是 MindSpore 生态系统中的一个子项目，它是一个专注于预训练模型的工具包。MindFormers 提供了一系列先进的预训练模型以及相关的训练和推理脚本，使得开发者能够快速地利用这些强大的模型进行研究或应用开发。MindFormers 包含了多种类型的预训练模型，如：自然语言处理（NLP）：包括 BERT、GPT 等。计算机视觉（CV）：例如 ViT（Vision Transformer）、Swin Transformer 等。多模态学习：结合文本和图像等多种数据类型的模型。
通过 MindFormers，用户可以方便地加载已有的预训练权重，对特定任务进行微调（fine-tuning），或者使用这些模型直接进行推理。此外，MindFormers 也提供了详细的文档和支持，帮助用户更好地理解和使用这些模型。

简单的理解就是，它就像是基于mindspore框架的，对标hugging face的transformers库的mindspore transformers库

使用模式介绍

使用这种套件或者框架，想必大家无论官网还是网上教程，看到的更多的是分为下面这两种使用：

命令启动：

高级api方式自定义：

总结一下，这两种方式，一种是脚本语言启动，一种是高级api方式代码启动。前者启动更快，封装更好，但相关的脚本参数以及命令可能对新手来说，特别是不理解背后运行原理的小伙伴来说还是比较难理解的吧（完全就是黑箱子，即使能看懂命令什么意思，但也会怀疑为什么~~）。后者更灵活，更自定义变化，对理解上比第一种更友好，<