大模型训练三部曲:
1.预训练:会给大模型输入大量的数据:网页、书籍、代码等,模型通过学习这些数据的语言规律和知识结构,为后续训练打下基础。
2.SFT监督微调阶段:这个阶段工匠般的标注数据被用于对模型进行精细打磨,通过监督学习的方式,让模型能够更好的理解和生成符合人类语言习惯的内容。提升准确性和可靠性。
3.RLHF基于人类反馈的强化学习:人性化的调试,使用的数据集中会带有分数,模型需要尽量给低分内容打低分,高分内容打高分。这么做的目的是让模型不要输出不合法不合规的内容。
大模型的四个特点:
1.规模和参数量大
2.适应能力强,灵活能力强
3.有广泛数据集的预训练
4.计算资源需求大
按照应用场景,大模型可以大致分为:
1.大语言模型LLM
2.多模态模型
大模型的工作流程
1.分词化与词表映射
三种分词化:词粒度、字符粒度、子词粒度
然后会为每个词映射一个token id,也就是建立了词表映射,映射的token id才是最终交给计算机处理的部分。因为计算机或者说模型可没法直接看懂自然语言,它只能看懂数字。
2.文本生成的过程
生成的过程可以拆解为:输入问题、分词化、神经网络计算、概率选择、自回归生成和输出结果。
学到这里我有一个顿悟:大模型给出你想要的内容,其实就是根据你提供的内容,接着你的内容去生成的内容。也就是它的回答不是重新从0生成的,而是接着问题后面生成的,它根本没有把输入的内容看成是一个问题,而是把它看成一个上文,他需要做的是根据上文填写下文。而下文就是你想要的答案。