深度学习作为人工智能核心领域的关键部分,已在图像、语音和语言处理等多个领域实现重大突破。探究任何学科,须从其历史根源起步,洞悉历史脉络,方能掌握当下,洞察未来。
深度学习的发展历程是怎样的呢?接下来,我们一同探究深度学习的历史足迹。
1940-1950年代:神经网络初始理念
1943年,Warren McCulloch与Walter Pitts在论文《神经活动中内在思想的逻辑演算》中提出MCP模型,标志着神经网络与数学模型的诞生,为这两大领域奠定了基础。
MCP旨在利用计算机复制人类神经元的反应机制,将神经元简化为三个核心步骤:输入信号线性加权,信号求和,以及非线性激活(采用阈值法)。具体过程如以下图表所示。
图:1949年,Hebb提出Hebbian学习规则,揭示神经元A接收B输入并持续输出时,两者连接强度增强。此规则与条件反射机理相符,神经细胞学说已证实。Hebbian学习规则为神经元连接强度学习机制奠定理论基础。1950s-1960s:Rosenblatt于1958年提出感知器,由两层神经元构成,用于二分类多维数据,并自动学习更新权值。Minsky和Papert在1969年指出感知器为线性模型,仅能处理线性分类,如XOR问题。
图示:无任何直线能区分绿色与红色点–异或问题
1980s-1990s:多层感知机与反向传播技术崛起。Hinton等人在1985年提出受限玻尔兹曼机(RBM),一种用于无监督学习的随机神经网络,擅长特征提取和降维。1986年,Hinton发明了针对多层感知器(MLP)的BP算法,引入Sigmoid非线性映射,有效攻克了非线性分类与训练难题,掀起了神经网络热潮。1989年,LeCun等应用BP算法训练卷积神经网络(CNN)识别手写数字,标志着其在图像识别领域的突破。
图:CNN模型
1990s-2000s:深度学习奠基与发展
- 1990年,Elman提出Elman Networks,即RNN的基础。
- 1991年,Hochreiter揭示梯度消失问题,影响RNN和深度网络。
- 1993年,Hinton研究自编码器,概念早于该年。
- 1997年,Hochreiter和Schmidhuber提出LSTM,解决RNN梯度消失。
- 1998年,LeCun等改进CNN,发布LeNet-5,手写数字识别先驱。
2000s:深度学习复兴
- 2006年,Hinton等提出深度信念网络和深度自编码器,引入逐层预训练。
- 同年,NVIDIA的CUDA框架加速深度学习。
2010s:深度学习突破与普及
- 2012年,AlexNet在ILSVRC中胜出,引入ReLU激活,CNN技术普及。
- 2013年,DQN结合深度学习与强化学习,在Atari游戏超越人类。
- 同年,Kingma和Welling提出VAE,结合贝叶斯与深度学习。
- 2014年,Goodfellow等提出GAN,推动生成模型发展。
图:GAN模型
2014年6月24日,Google DeepMind推出《Recurrent Models of Visual Attention》,引发了对注意力机制的广泛关注。该研究运用RNN模型,融入注意力机制于图像分类,率先将注意力机制引入深度学习领域。
2014年9月,Bahdanau、Cho与Bengio发布《Neural Machine Translation by Jointly Learning to Align and Translate》,引入注意力机制革新了机器翻译,强化了对长序列的处理。这一突破成为机器翻译史上的里程碑。2015年5月,Ronneberger等提出U-Net,以其对称U形架构和跳跃连接融合特征,实现了精准的生物医学图像分割。U-Net的设计巧妙解决了小样本挑战,广泛用于医学和遥感图像处理,对图像分割领域贡献巨大。
图:U-Net
2015年12月10日,何凯明团队发表《Deep Residual Learning for Image Recognition》,提出ResNet(残差网络),通过残差连接攻克深层神经网络训练难题。ResNet在ILSVRC 2015夺冠,大幅提升深度学习模型性能和可训练性。其创新架构支持构建更深网络,推动计算机视觉如图像识别、目标检测发展,是深度学习的关键支柱。
图:ResNet
2015至2016年间,Google和Facebook推出TensorFlow、PyTorch与Keras,极大推动了深度学习领域的研究与应用,显著简化了复杂神经网络模型的开发与训练流程。
2016年,Google DeepMind的AlphaGo战胜围棋冠军李世石,彰显了深度强化学习的巨大潜能。
2017年,Google Brain推出《Attention is All You Need》,引入Transformer,摒弃了RNN和CNN,全面采用注意力机制进行机器翻译。此创新如彗星划空,迅速震撼NLP学界,深刻重塑了自然语言处理领域,对BERT、GPT等后续模型影响深远。
图:Transformer
2018年6月,OpenAI推出革命性模型GPT,标志着大规模预训练的里程碑。同年10月11日,Google AI推出BERT,引入自回归与自编码预训练方法,与GPT并驾齐驱。GPT与BERT成为后续大规模预训练模型的基石。
图:BERT
2020s:深度学习拓展新篇章
2020年10月22日,Google团队推出《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》,提出Vision Transformer(ViT),该模型以简洁高效、可扩展性强(规模越大性能越佳)的特点,在CV领域引领变革,开启了Transformer应用新纪元。2021年2月26日,OpenAI发布《Learning Transferable Visual Models From Natural Language Supervision》,推出CLIP模型,实现图像与文本的对比学习,奠定多模态AI研究基础,加速图像生成、理解和交互领域发展。同年7月,Google DeepMind在《Nature》上连续发表AlphaFold相关论文,发布AlphaFold 2,在蛋白质结构预测竞赛中展现惊人准确度,对生物医学研究、药物设计等领域产生深远影响。2022年12月20日,Stability AI发布Stable Diffusion,一种基于扩散模型的图像生成技术,成为AI绘画领域的关键模型,支持文本到图像(txt2img)和图像到图像(img2img)等多种生成任务。
图:Diffusion Model
2022年7月,David Holz推出Midjourney AI,运用GANs与深度学习技术,依文本生成高品质图像。11月,OpenAI发布GPT-3.5,ChatGPT成为全球抢手货,掀起大语言模型风潮。ChatGPT等大语言模型展现惊人实力,各类多模态预训练模型如春笋般涌现。
图:Albert Gu与Tri Dao于2023年12月1日发表的论文《Mamba:基于选择性状态空间的线性时间序列建模》展示了Mamba,一种新颖的神经网络架构,区别于Transformer,擅长处理长序列数据,兼顾效率与性能。该技术对于自然语言处理、语音识别及生物信息学等处理海量数据的应用场景极具实用价值。
图:Mamba
2024年2月18日,OpenAI推出SORA模型,该文本转视频技术融合了顶尖的Transformer与GAN架构,深度应用CLIP技术,显著提升文本生成视频的质量。
图:SORA生成的视频
2024年5月8日,DeepMind发布论文《AlphaFold 3精准预测生物分子交互结构》,推出AlphaFold 3,以革命性的精确度预测了所有生物分子的结构及互动。相比现有技术,AlphaFold 3在蛋白质与其他分子间交互的预测上提升达一倍以上。
图:AlphaFold 3预测的蛋白质三维结构
本文深入梳理了深度学习自1940年代以来的演进,包括早期神经网络、感知器、多层感知机、反向传播、循环神经网络、自编码器、深度信念网络、生成对抗网络和Transformer等关键阶段。尽管如此,文章亦存在局限,如将反向传播算法的功劳归于Geoffrey Hinton,而实际上,Seppo Linnainmaa才是其早期研究者。同时,文章未能全面反映深度学习在各行业和新兴领域的最新融合进展。期待未来有更多研究和探讨,以深化我们对这一领域的理解。
零基础如何学习AI大模型
领取方式在文末
为什么要学习大模型?
学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术,如自然语言处理和图像识别,正在推动着人工智能的新发展阶段。通过学习大模型课程,可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术,从而提升自己在数据处理、分析和决策制定方面的能力。此外,大模型技术在多个行业中的应用日益增加,掌握这一技术将有助于提高就业竞争力,并为未来的创新创业提供坚实的基础。
大模型典型应用场景
①AI+教育:智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据,提供量身定制的学习方案,提高学习效果。
②AI+医疗:智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像,辅助医生进行早期诊断,同时根据患者数据制定个性化治疗方案。
③AI+金融:智能投顾和风险管理系统帮助投资者做出更明智的决策,并实时监控金融市场,识别潜在风险。
④AI+制造:智能制造和自动化工厂提高了生产效率和质量。通过AI技术,工厂可以实现设备预测性维护,减少停机时间。
…
这些案例表明,学习大模型课程不仅能够提升个人技能,还能为企业带来实际效益,推动行业创新发展。
学习资料领取
如果你对大模型感兴趣,可以看看我整合并且整理成了一份AI大模型资料包,需要的小伙伴文末免费领取哦,无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发
部分资料展示
一、 AI大模型学习路线图
整个学习分为7个阶段
二、AI大模型实战案例
涵盖AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,皆可用。
三、视频和书籍PDF合集
从入门到进阶这里都有,跟着老师学习事半功倍。
四、LLM面试题
五、AI产品经理面试题
😝朋友们如果有需要的话,可以V扫描下方二维码联系领取~
👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]👈