大模型学习笔记------什么是大模型
近两年大模型超级火,并且相关产品迎来爆发式增长。在工作中,也常常接触到大模型,并且已经开始进行相关的研究。这个专题可以作为自己的学习记录与大家分享。
1、大模型定义
大模型(Large Model)通常指具有超大规模参数和数据训练的机器学习模型,尤其是深度学习模型。它们依赖于海量的文本、图像或其他数据,通过复杂的网络结构(如Transformer)进行训练,从而在理解、生成、预测等任务中表现出色。大模型已经成为当前人工智能研究和应用的前沿,能完成从文本生成、图像生成到多模态任务等广泛的功能。
2、大模型发展历程
大模型的发展历程主要伴随着计算能力的提升、模型结构的创新以及数据规模的增长,从最初的小规模模型逐步扩展为当前具有数百亿乃至数千亿参数的大规模深度学习模型。以下是大模型发展的几个关键阶段:
前深度学习时代(1990s - 2012)
基础算法和小规模模型:早期的机器学习模型以支持向量机(SVM)、决策树、逻辑回归等为主,处理任务有限且数据需求较小。
神经网络的初步探索:20世纪80年代和90年代,神经网络被提出,但因计算能力有限,深层网络难以训练,应用范围受限。
特征工程主导:在特征提取方面投入大量人力,通过人为特征来提升算法性能,但模型复杂度和适应性都有限。
深度学习的兴起(2012 - 2017)
AlexNet的突破(2012):AlexN