第一章 深度学习模型的技术演进
1.1 从感知机到深度神经网络
- 里程碑突破:AlexNet在ImageNet竞赛中实现图像分类性能飞跃,首次验证深度卷积网络(CNN)的潜力。其采用ReLU激活函数、Dropout正则化等创新,奠定现代深度学习基础架构。
- 梯度消失的破解:LSTM网络通过门控机制实现长时序依赖建模,为自然语言处理(NLP)开辟道路,后续双向LSTM、GRU等变体持续优化记忆能力。
- 计算范式革新:Transformer架构凭借自注意力机制,在机器翻译任务中超越RNN系模型,并衍生出BERT、GPT等预训练大模型,推动NLP进入“大模型时代”。
1.2 架构创新的技术图谱
- 卷积网络进阶:从VGG、ResNet到EfficientNet,模型深度与效率的平衡策略(残差连接、通道注意力等)不断提升视觉任务性能。
- 多模态融合突破:深度多任务条件玻尔兹曼机实现跨模态数据联合建模,支撑医疗影像-文本关联分析等场景;选择性LSTM网络在图文匹配中实现语义焦点动态捕捉。
- 轻量化革命:全卷积RNN将参数