1、学习总结
1.1Unsupervised Language Modelling
GPT是“生成预训练变换器”(Generative Pre-trained Transformer)的缩写。GPT模型是一种由OpenAI公司开发的人工智能语言模型,它基于Transformer架构。它利用大规模文本数据进行预训练,掌握了丰富的语言知识和语境,能够完成多种自然语言处理任务。
1. GPT模型的核心思想是在大规模语料库上进行预训练,使其具备对语言的理解和生成能力。它采用Transformer架构,该架构利用自注意力机制来处理输入序列,使得模型能够捕捉长距离依赖关系。GPT的预训练包括自监督学习,其中模型尝试预测给定上下文中缺失的词语,从而学习语言的结构和语法。在已经预训练好的GPT上,可以通过微调进行进一步调整以适应特定任务。在微调中,需要根据不同的下游任务来处理输入,主要的下游任务可分为以下四类:分类、蕴含、相似度和多项选择题.
课程链接https://www.bilibili.com/video/BV1Gh411w7HC/?spm_id_from=333.999.0.0
已有方法
半监督学习(Semi-Supervised Learning)是一种介于监督学习和无监督学习之间的机器学习范式。它使用一部分有标签的样本(有监督的数据)和一部分无标签的样本(无监督的数据)作为训练数据集。它的目的是通过利用大量的无标签样本来提高模型在有限的有标签样本上的性能。GPT1主要采用以下方法进行训练:
- 基于大量的无标注文本数据,训练一个预训练语言模型。
- 使用有标注文本数据,对预训练模型进行微调(finetune),以适应某个特定的下游任务。微调时只更改输出层(线性层)。
但是半监督学习存在以下问题:
- 自然语言处理的下游任务非常多样,难以找到一个统一的优化目标。
- 预训练模型中的信息难以完全传递到微调后的下游任务中。
因此,提出了一种无监督学习的预训练模型,其模型结构如下:由于训练目标(objective)的选择,GPT在模型中不能看到当前词(token)之后的信息,所以模型应该设计为单向网络,即Transformer中的解码器(decoder)结构。
2、学习心得
Supervised Fine-Tuning(有监督微调)是一种机器学习中的训练策略,它可以对预训练模型进行进一步调整,使其适应特定任务。这种方法通常用于迁移学习的场景,即模型先在一个大规模的任务上进行预训练,然后通过微调在特定任务上进行优化。
在已经预训练好的GPT上额外加一层线性层并通过减小目标与计算结果之间的误差来优化模型
最后为了加速模型收敛和提高模型的泛化能力,结合pretrain时language modelling的优化目标
心得:
在GPT课程的学习过程中,我对自然语言处理和大模型的工作原理有了更全面的认识。通过深入学习GPT模型,我理解了预训练和微调的重要性,以及如何利用大规模文本数据让模型学到通用的语言表示。课程中的实践项目——使用GPT Finetune 完成一个Task,使用IMDb数据集,通过finetune GPT进行情感分类任务。加深了对模型训练和调整的实际操作经验。
3、使用MindSpore昇思的体验和反馈
我在学习MindSpore技术公开课时,非常欣赏MindSpore昇思的设计理念。它支持全场景、全流程的AI开发,具有很强的灵活性。它采用了图模型的思想,让模型构建更加直观和易懂。同时,MindSpore昇思提供了许多有用的工具和功能,例如自动微分、模型并行训练等,让深度学习任务更加简单和高效。此外,MindSpore的安装命令也很简洁,启智社区还提供了相应的MindSpore镜像版本,方便学习使用。