当我们初次接触深度学习相关的文章时,常常会碰到一些看似熟悉却又难以真正理解的专业术语。也许这次看懂了,但下次又会模糊遗忘。为此,本文专门整理了一份“深度学习小词典”,涵盖了最常用的核心术语及其基础定义,方便你随时查阅和理解。希望通过这篇文章,你能轻松掌握这些常见术语,不再被它们困扰。
1、基础概念
1)神经网络(Neural Network)
📌 定义:一种模拟人脑神经元连接方式的计算模型,由多个“神经元”组成,通过训练可以自动学习数据中的特征和规律。
🧩 类比:就像一组互相协作的员工,每个员工(神经元)处理一部分信息,最后一起给出结果。
2)感知机(Perceptron)
📌 定义:最早期的神经网络模型之一,结构简单,通常由输入层、权重、激活函数和输出组成。
这是最简单的一种神经网络模型,能做一些基础的“是/否”判断。
🧩 例子:输入是“今天温度”和“今天下雨了吗”,输出判断“要不要带伞”。
3)激活函数(Activation Function)
📌 定义:引入非线性变换的函数,使得神经网络可以拟合复杂的函数关系。常见的有:ReLU(Rectified Linear Unit)、Sigmoid、Tanh。
ReLU:小于0就不理你,大于0就原样输出(常用,速度快)。它决定了神经元是否“被激活”,从而产生输出。没有它,整个神经网络就只是个线性模型,学不会复杂的规律。
🧩 类比:就像人的“情绪开关”,某种强度的刺激(输入)才能引起反应(输出)。
4)权重(Weights) & 偏置(Bias)
📌 定义:权重:连接神经元之间的系数,表示输入特征的重要程度。偏置:调整激活函数输出的参数,用于增强模型的灵活性。
权重:衡量每条输入信息的重要程度。偏置:给每个输出“提个醒”,就像一个底数调整。
🧩 类比:你根据“天气”“心情”“工作量”决定是否出去散步,权重表示你在乎哪个因素多一点,偏置就是你天生喜欢宅的程度 。
5)前向传播(Forward Propagation)
📌 定义:数据从输入层通过网络传到输出层的过程,是模型“预测”的过程。
数据像流水一样,从头流到尾,模型给出一个“预测”结果。
🧩 例子:你看到一个人的简历(输入),经过你的脑子思考(神经网络),最后决定要不要请他面试(输出)。
6)反向传播(Backpropagation)
📌 定义:用于训练神经网络的关键算法,通过计算损失函数对每个参数的梯度,逐层更新权重和偏置。
模型做错了,需要反过来检查自己哪里出错,并调整那些“想法”(参数)以避免再次犯错。
🧩 类比:你考试错了题,反思错在哪里(反向传播),下次避免再错(更新参数)。
7)损失函数(Loss Function)
📌 定义:衡量模型预测值与真实值之间差距的函数。常见的有:均方误差(MSE)、交叉熵损失(Cross-Entropy Loss)。
告诉模型“你错得有多离谱”,数值越大,预测越不准。
🧩 例子:如果你预测某人年龄是 18 岁,但他其实 60 岁,这个“损失”值就会非常大!
8)学习率(Learning Rate)
📌 定义:控制每次参数更新的幅度,是训练过程中非常重要的超参数。
模型每次“学习”要改多少?太小学得慢,太大学得快但容易撞墙。
🧩 类比:就像你练钢琴,每次练习改一点点就稳(低学习率),改太多可能把手法全改乱了(高学习率)。
9)梯度(Gradient)
📌 定义:损失函数对模型参数的导数,指明了调参方向。
“告诉你要往哪个方向走,才能走向正确答案”。
🧩 类比:在山里找最低谷,梯度就像告诉你“下坡的方向”。你顺着它走,就越来越接近“最优解”。
10)过拟合(Overfitting)
📌 定义:模型在训练集上表现很好,但在新数据(测试集)上效果差,说明模型记住了训练数据而不是学到了泛化能力。
模型太聪明,把训练数据死记硬背了,但遇到新题不会灵活应变。
🧩 例子:就像你死背英语作文模板,换个题目就不会写了。
11)欠拟合(Underfitting)
📌 定义:模型对训练数据和测试数据的表现都不好,说明模型太简单,无法捕捉数据的特征。
模型太笨,连训练数据都学不明白,说明它太简单或者没学够。
🧩 例子:你看了几遍数学题还是不会做,那就是欠拟合 。
12)梯度下降(Gradient Descent)
📌 定义:一种优化算法,用来不断调整模型的参数(比如权重),使得损失函数的值尽可能小,也就是模型预测尽可能准确。
🧩 类比:就像减肥一样,你每天根据体重变化调整饮食和运动——不断“试错”,直到体重下降到理想值。
13)批量大小 / Batch Size
📌 定义:每次模型学习时,用多少条数据进行一次参数更新的数量。
🧩 类比:就像复习时,你不会每背一句就复习一次,也不会全书看完才复习,而是分成几页一组来复习,这样更高效!
2、模型训练与优化
1)优化器(Optimizer)
📌 定义:根据损失函数的反馈,来更新模型参数(比如权重)的方法。常用优化器有 SGD、Adam、RMSprop 等。
🔍 示例:优化器就像是“教练”,你在训练(减肥/考试/跑步),损失函数是成绩单,优化器根据你表现差的地方告诉你怎么改——比如“多练数学”或“减点甜食”。
🧩 类比: Adam 是一个很聪明的教练,它不只看你当前错在哪,还记得你之前犯过的错,给出更“全面”的建议。
2)权重初始化(Weight Initialization)
📌 定义:在训练开始前为模型参数设置初始值。
🧩 类比:就像你刚开始学习时的“知识水平”。如果初始值设得不好,模型可能很难学到正确的方向。
3)正则化(Regularization)
📌 定义:是一种防止模型“过拟合”的技巧,通常在损失函数中加上一个惩罚项,让模型不要太依赖某些特征。L1 正则化:鼓励模型只用少数关键特征。L2 正则化:鼓励模型不过度依赖任何一个特征。
🧩 类比:模型“背书”能力太强可能记住每一页内容但不会灵活应用(过拟合),正则化就是告诉模型“别死记硬背”,要灵活学习。
4)早停(Early Stopping)
📌 定义:当验证集上的表现不再提升时,提前终止训练以防止过拟合。
🧩 类比:你在备考,发现复习太久效果开始下降(背了反而忘),早停机制就像告诉你“差不多就好”。
5)交叉验证(Cross-Validation)
📌 定义:把数据划分为多个部分,多次训练验证,确保模型在不同数据上的表现都稳定。
🧩 类比:就像你参加考试前,不止做一套题,而是做几套模拟题,确认你不只是会“押题”,而是真会。
6)动量(Momentum)
📌 定义:在优化中引入“惯性”,让模型在梯度方向上更稳定地前进,不会因为局部小波动而迷路。
🧩 类比:像是在山谷里骑自行车,下坡的时候惯性会让你越滚越快,就算路上有些小石头也不容易被卡住。
🔍 示例:使用 SGD 优化器时加上 momentum=0.9,表示“90% 的上次方向 + 本次梯度”的混合方向来更新参数。
7)学习率衰减(Learning Rate Decay/Scheduler)
📌 定义:训练过程中动态调整学习率,通常是逐步降低学习率以更精细地逼近最优值。
🧩 类比:就像你找宝藏一开始可以大步走(大步调整参数),越靠近宝藏越需要小心翼翼地走(慢慢微调)。
🔍 示例:在 PyTorch 中用 StepLR(optimizer, step_size=10, gamma=0.1) 表示每 10 个 epoch 将学习率变为原来的 0.1 倍。
8)数据增强(Data Augmentation)
📌 定义:对训练数据进行轻微变换(如旋转、翻转、裁剪等)来“扩充数据量”,提高模型泛化能力。
🧩 类比:就像一张猫的照片翻个面、加个滤镜、换个角度,仍然是“这只猫”,但模型就能见识到更多猫的样子。
9)训练集 / 验证集 / 测试集(Train/Validation/Test Split)
📌 定义:训练集:用来训练模型。
验证集:训练过程中评估模型表现,调参数。
测试集:最终评估模型好坏。
🧩 类比:你在准备考试时:训练集 = 平时练的题,验证集 = 模拟考试,检查状态,测试集 = 正式考试,看你到底学得怎么样
10)损失曲线(Loss Curve)
📌 定义:绘制训练或验证过程中,损失值(loss)随时间变化的曲线。
🔍 示例:使用 matplotlib 把每个 epoch 的 loss 值画出来,看训练是否收敛或出现异常。
🧩 类比:就像体重记录图,看你是否真的越来越瘦(损失值越来越小),有没有中途反弹(过拟合)。
11)梯度爆炸/消失(Gradient Explosion / Vanishing)
📌 定义:梯度爆炸:梯度值非常大,导致模型权重变得不稳定,训练失败。
梯度消失:梯度值非常小,模型几乎学不到东西。
🔍 示例:在 RNN 训练中经常遇到梯度消失问题;使用 BatchNorm、残差连接可以缓解这些问题。
🧩 类比:爆炸:就像开水龙头开太大,水喷得到处都是。消失:像水龙头开得太小,几乎没有水流出。
12)训练轮次(Epoch)
📌 定义:模型完整看一遍训练集的次数,每一轮训练都称为一个 epoch。
🧩 类比:就像你把整本书读完一遍是一次 epoch,读多几遍希望理解更深入。
13)模型收敛(Convergence)
📌 定义:训练过程中损失函数不再大幅波动,模型的表现趋于稳定,说明训练“收敛”了。
🔍 示例:训练 loss 从开始的 5 降到 0.1,然后几轮内都维持在 0.1 附近,说明模型基本收敛。
🧩 类比:就像你减肥到一个理想体重,再也不怎么变化了,这说明你的“控制系统”已经稳定工作了。
3、模型架构
1)前馈神经网络(Feedforward Neural Network, FNN)
📌 定义:最基础的神经网络结构,信息从输入流向输出,中间不包含循环。
🔍 示例:全连接网络(Fully Connected Layer)就是典型的前馈结构。
🧩 类比:就像流水线作业,每一步都朝着一个方向走,不会回头。
2)卷积神经网络(Convolutional Neural Network, CNN)
📌 定义:主要用于图像处理的网络,能够提取空间特征。
🔍 示例:猫狗识别、图像分类任务中常用 CNN,比如 ResNet、VGG。
🧩 类比:就像拿一个放大镜(卷积核)去滑过整张图像,提取每个局部的特征。
3)循环神经网络(Recurrent Neural Network, RNN)
📌 定义:专门处理序列数据的网络,具有“记忆”能力。
🔍 示例:用于文本生成、语音识别等,比如输入一句话,预测下一个词。
🧩 类比:像写日记,每一页都记得前一天发生的事,因此能理解顺序。
4)长短时记忆网络(Long Short-Term Memory, LSTM)
📌 定义:RNN 的改进版本,能更好地记住长期信息,防止遗忘。
🔍 示例:用于情感分析,记住句首的情绪对整句判断很关键。
🧩 类比:给 RNN 装了一个“记忆芯片”和“遗忘开关”,有选择地记住重要内容。
5)门控循环单元(GRU)
📌 定义:比 LSTM 更轻量化的一种循环结构,训练更快但也能记住序列信息。
🔍 示例:用于情感分析,记住句首的情绪对整句判断很关键。
🧩 类比:给 RNN 装了一个“记忆芯片”和“遗忘开关”,有选择地记住重要内容。
6)长短时记忆网络(Long Short-Term Memory, LSTM)
📌 定义:RNN 的改进版本,能更好地记住长期信息,防止遗忘。
🔍 示例:同样适用于序列数据,如机器翻译等。
🧩 类比:LSTM 的“瘦身版”,少了一个门控机制但依然很聪明。
7)自注意力机制(Self-Attention)
📌 定义:让每个输入位置都能关注其他所有位置,提取全局信息。
🔍 示例:Transformer 的核心模块,广泛用于文本处理和图像建模。
🧩 类比:就像你听一首歌时,能同时注意到旋律、节奏和歌词之间的关系。
8)Transformer
📌 定义:完全基于注意力机制构建的模型架构,抛弃了循环结构,效率高、并行强。
🔍 示例:BERT、GPT 都是基于 Transformer 构建的。
🧩 类比:不再按顺序一个个地看,而是全局一起分析每个词和其他词的关系。
9)编码器-解码器(Encoder-Decoder)
📌 定义:用于输入和输出不对称任务的一种架构,编码器提取特征,解码器生成输出。
🔍 示例:机器翻译中常见的架构,例如将英文句子翻译成中文句子。
🧩 类比:就像你读完一本书(编码器),然后用自己的语言讲给别人听(解码器)。
10)跳跃连接 / 残差连接(Skip Connection / Residual Connection)
📌 定义:将前面层的输出直接加到后面层的输入,防止梯度消失。
🔍 示例:ResNet 中的核心技术。
🧩 类比:给模型装了一个“捷径”,就像有楼梯太陡,中间装个电梯,模型学习得更稳。
11)多头注意力(Multi-Head Attention)
📌 定义:多个自注意力机制并行工作,各自关注不同信息,最后合并结果。
🔍 示例:Transformer 中非常关键的组成部分。
🧩 类比:像多个人观察同一张图,有的人专注颜色、有的人看线条、有人关注结构,最后大家一起给建议。
12)全连接层(Fully Connected Layer / Dense Layer)
📌 定义:每个输入节点都连接到每个输出节点的层。
🔍 示例:在网络末尾用全连接层进行最终的预测输出,比如图像识别输出10类。
🧩 类比:像一个小组会议,每个人都跟所有人交流,信息传递最全面。
13)参数共享(Parameter Sharing)
📌 定义:多个神经元共享同一组权重参数。
🔍 示例:CNN 中卷积核的参数在整张图像上滑动使用,就是参数共享。
🧩 类比:像一位老师教多个班级,用的是同一份教材,提高效率。
14)池化层(Pooling Layer)
📌 定义:用于压缩特征图,减少计算和参数数量。CNN 中降低图像分辨率,保留主要特征。
🔍 示例:最大池化(Max Pooling):取最大值
平均池化(Average Pooling):取平均值
🧩 类比:像你看一张图,只取出每一块的“最重要”部分(最大值/平均值)。
15)嵌入层(Embedding Layer)
📌 定义:将离散的词或编号映射成连续的向量,常用于 NLP。
🔍 示例:NLP 模型中把“cat”映射成一个 300 维的向量。
🧩 类比:就像给每个词“找个座位”,让词语间的语义关系用数字表达出来。
16)位置编码(Positional Encoding)
📌 定义:为输入数据添加位置信息,解决 Transformer 不考虑顺序的问题。
🔍 示例:翻译句子时,“I love you” 和 “You love I” 的顺序不能搞混。
🧩 类比:原始 Transformer 看不懂先来后到,我们得告诉它“第几个词”、“第几个时间点”。
17)通道(Channel)
📌 定义:图像的维度之一,通常表示不同类型的特征图。
🔍 示例:CNN 中每一层特征图的“深度”就是通道数量,越往后通道越多,特征越复杂。
🧩 类比:彩色图像有 RGB 三个通道,就像三副滤镜分别处理红、绿、蓝。
18)Dropout(丢弃层)
📌 定义:在训练时随机“关闭”一部分神经元,防止过拟合。
🔍 示例:训练神经网络时在中间层加 Dropout 层,防止只依赖局部信息。
🧩 类比:就像课堂提问时,老师故意不让某些人回答,让大家都参与,避免某几个特别“聪明”的学生包办所有答案。
19)归一化层(Normalization Layer)
📌 定义:统一输入特征的尺度,提高训练稳定性。
🔍 示例:Batch Normalization:按批次归一化
Layer Normalization:按层归一化
Transformer 中大量使用 LayerNorm,CNN 中则常用 BatchNorm。
🧩 类比:就像比赛前让大家都穿统一装备,这样更公平、训练也更快。
4、模型评估与指标
1)准确率(Accuracy)
📌 定义:正确预测的样本数 / 总样本数。
🔍 示例:100 张图像,预测对了 90 张,准确率 = 90%。
🧩 类比:就像考试总分一样,看看模型“做对了多少题”。
2)精确率(Precision)
📌 定义:预测为正的样本中,真正为正的比例。
🔍 示例:预测出 10 个阳性,有 7 个是真的,那精确率是 70%。
🧩 类比:模型说“你有病”的人里,多少是真的有病?
3)召回率(Recall)
📌 定义:所有真正为正的样本中,被预测出来的比例。
🔍 示例:有 10 个病人,模型找出其中 8 个,召回率是 80%。
🧩 类比:真实有病的人里,有多少被模型找出来了?
4)F1 分数(F1 Score)
📌 定义:精确率和召回率的调和平均值。
🔍 示例:当精确率是 0.8,召回率是 0.6,F1 分数 ≈ 0.69。
🧩 类比:在精度和召回率之间取得平衡,不能只高一个。
5)AUC / ROC 曲线
📌 定义:AUC 是 ROC 曲线下的面积,反映模型分类能力。
🔍 示例:AUC = 0.5 表示模型像“瞎猜”,AUC = 0.9 表示表现非常好。
🧩 类比:ROC 曲线就像一个表现图,AUC 越接近 1,模型越好。
6)Top-K 准确率(Top-K Accuracy)
📌 定义:模型预测中,真实标签是否包含在前 K 个预测结果中。
🔍 示例:Top-1 是我们常说的准确率,Top-5 就是只要在前 5 个答案里出现正确标签就算对。常用于图像分类任务(如 ImageNet)。
🧩 类比:不要求“第一个猜对”,只要“猜对在前几名”就算成功。
7)均方误差(Mean Squared Error, MSE)
📌 定义:预测值和真实值之间差值的平方的平均。
🔍 示例:预测房价,真实是 100 万,模型预测 120 万,那误差是 20 万,平方后是 4000 万。
🧩 类比:错误越大,惩罚越重。适合回归问题。
8)平均绝对误差(Mean Absolute Error, MAE)
📌 定义:预测值与真实值差的“绝对值”的平均。
🔍 示例:预测 100 万 → 120 万,误差就是 20 万,MAE 就是平均这种差值。
🧩 类比:不用平方,误差就是“相差了多少”,比较温和。
9)均方根误差(Root Mean Squared Error, RMSE)
📌 定义:MSE 的平方根。
🔍 示例:如果 MSE 是 4000 万,那 RMSE 大约是 63245(表示平均误差大约是 6 万多)。
🧩 类比:和 MSE 类似,但单位和原始值保持一致,更直观。
10)支持度(Support)
📌 定义:每个类别在测试集中出现的次数。
🔍 示例:如果某一类在测试集只有 3 个样本,评估值可能不太可靠。
🧩 类比:就像“这门课有多少学生”,样本数太少可能不具代表性。
5、高级概念
1)迁移学习(Transfer Learning)
📌 定义:将一个任务中学到的知识迁移到另一个相关任务中。
🔍 示例:用 ImageNet 训练好的图像识别模型,微调后用于医疗图像分类。
🧩 类比:就像你学会了弹钢琴,再学电子琴就轻松多了。
2)蒸馏学习(Knowledge Distillation)
📌 定义:用大型复杂模型(老师)训练出小型轻量模型(学生)。
🔍 示例:BERT-base 蒸馏出 TinyBERT,模型更小但保留主要能力。
🧩 类比:老师先学明白了,然后讲给学生听,学生不需要那么复杂也能学会。
3)对抗训练 / 对抗样本(Adversarial Training / Adversarial Examples)
📌 定义:对输入数据加入微小扰动,测试模型鲁棒性或训练模型更稳定。
🔍 示例:在一张猫的照片上加点像素噪声,模型误判成狗。
🧩 类比:给图像加点“看不出来”的干扰,让模型判断错误;训练时故意“刁难”它提高能力。
4)自监督学习(Self-Supervised Learning)
📌 定义:利用原始数据中的“伪标签”来自我监督学习,无需人工标注。
🔍 示例:BERT 训练时用 [MASK] 掩盖词汇,模型学习预测掩盖的词。
🧩 类比:像一个人在做题时自己挖空、自己出题再自己答题。
5)预训练(Pre-training)
📌 定义:先在大数据上训练模型,再在目标任务上进行微调。
🔍 示例:先在海量文本上训练语言模型,之后再用于问答、翻译任务。
🧩 类比:就像先读大学基础课,后续专业课就学得快。
6)多任务学习(Multi-task Learning)
📌 定义:模型同时学习多个相关任务,共享知识。
🔍 示例:模型同时做情感分类和文本摘要。
🧩 类比:一个老师教学生语文和历史,虽然是两门课,但可以共用一些背景知识。
7)支持度(Support)
📌 定义:每个类别在测试集中出现的次数。
🔍 示例:如果某一类在测试集只有 3 个样本,评估值可能不太可靠。
🧩 类比:就像“这门课有多少学生”,样本数太少可能不具代表性。
8)联邦学习(Federated Learning)
📌 定义:多个设备在本地训练模型,模型更新而不是数据本身上传。
🔍 示例:安卓手机在本地学习你的输入习惯,但不会把你的打字记录上传。
🧩 类比:手机上自己学,学到的经验再共享,不用上传你的数据。
9)零样本学习 / 小样本学习(Zero-shot / Few-shot Learning)
📌 定义:在几乎没有样本甚至零样本的情况下让模型完成任务。
🔍 示例:GPT-4 能在没有看到过具体问题训练的前提下直接推理和回答。
🧩 类比:你没学过“蟒蛇”这个词,但你知道“蛇”和“大”,大概猜得出意思。
10)图神经网络(Graph Neural Network, GNN)
📌 定义:专门处理图结构数据的神经网络,例如节点之间有联系的数据。
🔍 示例:社交网络分析、脑网络分析、推荐系统。
🧩 类比:如果你的人脉关系是一个网络,GNN 就是帮助理解“你和你朋友的朋友”的信息关系。
11)生成对抗网络(Generative Adversarial Network, GAN)
📌 定义:由生成器和判别器组成的网络,通过“博弈”生成以假乱真的数据。
🔍 示例:人脸生成、图像风格迁移、动漫风格图像创作。
🧩 类比:一个画家不断练习(生成器),一个鉴定专家不断挑毛病(判别器),两人互相进步。
12)元学习(Meta Learning)
📌 定义:让模型学会“如何学习”,提升对新任务的适应能力。
🔍 示例:模型学会如何快速适应只有几个样本的新任务。
🧩 类比:像是你不仅学了知识,还学会了如何高效学习。
13)贝叶斯深度学习(Bayesian Deep Learning)
📌 定义:将概率统计引入深度学习,提供不确定性估计。
🔍 示例:医疗诊断时模型提示“有 90% 可能是 A 病,10% 是 B 病”。
🧩 类比:模型不仅给出答案,还告诉你“我有多确定”。
14)神经架构搜索(Neural Architecture Search, NAS)
📌 定义:自动寻找最优神经网络结构的方法。
🔍 示例:AutoML 工具可以基于 NAS 找到适合手机端的高效模型。
🧩 类比:像是一个聪明的 AI 帮你自动设计神经网络,节省人力调参。
15)强化学习(Reinforcement Learning, RL)
📌 定义:模型通过“试错”和“奖励反馈”来学习行为策略。
🔍 示例:AlphaGo 玩围棋、机器人自动行走、自主驾驶。
🧩 类比:像是训练小狗做动作,做对了给奖励,做错了不给。
16)多模态学习(Multimodal Learning)
📌 定义:处理多个类型的数据(如图像+文本+音频)一起进行学习。
🔍 示例:AI 看图说话(图像+文字)、视频分析(图像+语音+字幕)。
🧩 类比:像人一样通过眼看(图像)、耳听(语音)、嘴说(文本)来全面理解世界。
17)自适应计算(Adaptive Computation)
📌 定义:根据输入复杂度自动决定模型计算的深浅或资源使用量。
🔍 示例:在边缘设备上节省算力、提高响应速度的动态模型。
🧩 类比:像人做题时简单题快答,难题慢慢思考,模型也可“量力而行”。
18)伪标签(Pseudo-Labeling)
📌 定义:用模型预测结果作为“假标签”继续训练未标记数据。
🔍 示例:半监督学习中对无标签数据赋值进行训练。
🧩 类比:就像老师布置题目,学生自己写答案再用它来练习。
19)对比学习(Contrastive Learning)
📌 定义:通过拉近相似样本、拉远不相似样本之间的表示学习特征。
🔍 示例:SimCLR、MoCo 是非常火的对比学习框架,用于自监督特征提取。
🧩 类比:像记单词时,把“dog”和“cat”归为宠物,“car”归为另一类,学得更清晰。
20)表征学习(Representation Learning)
📌 定义:自动从原始数据中学习到有用的“特征表示”(即 vector 表达),让模型更容易完成分类、预测等任务。
🔍 示例:BERT 从海量文本中学习词语的上下文表征;ResNet 提取图像的结构信息。
🧩 类比:就像我们看一本书,不需要逐字翻译,而是理解其中的“意思”;模型也希望从复杂的数据中学到“有意义的表达”。
21)模型坍塌(Model Collapse)
📌 定义:在自监督或对比学习等任务中,模型学出来的表示都变得非常相似,失去了区分性。
🔍 示例:SimCLR 等对比学习中如果没有足够的负样本,容易发生 collapse。
🧩 类比:就像考试时所有同学都写了一样的答案,不管对不对,都没法分出高低;模型“偷懒”了,只学了一个模板答案。
22)掩码学习(Masked Learning)
📌 定义:对输入数据部分遮盖(掩码),让模型去“猜”被遮住的部分,从而强制学习数据内部结构。
🔍 示例:BERT 遮盖句子中的部分词语进行预测;MAE 遮挡图像部分像素再重建。
🧩 类比:就像“填空题训练”,通过不断填空,模型学会理解句子或图像结构。
23)SOTA(State of the Art)
📌 定义:表示某项任务中目前已知的“最佳性能”或“最先进技术”。
🔍 示例:Vision Transformer 是某些图像识别任务的 SOTA 模型。
🧩 类比:就像“世界纪录保持者”,指目前最强、表现最好的方法。
24)下游任务(Downstream Task)
📌 定义:指在完成预训练或表征学习之后,用模型应用到具体目标任务,如分类、检测、分割等。
🔍 示例:GPT 预训练之后,可用于下游的问答、翻译、摘要等任务。
🧩 类比:预训练就像学打基础,做下游任务就像用技能上战场——写作文、解数学题、回答问题。
6、应用领域
1)医学影像分析(Medical Image Analysis)
📌 定义:使用深度学习技术对医学图像(如 MRI、CT、X 光等)进行处理、检测和分类。
🔍 示例:肺结节检测、脑疾病分类(如 AD/ADHD)、肿瘤分割。
🧩 类比:就像 AI 医生,通过“看图”来发现病灶、辅助诊断。
2)计算机视觉(Computer Vision, CV)
📌 定义:让计算机“看懂”图像和视频的内容。
🔍 示例:人脸识别、自动驾驶中的物体检测、安防监控。
🧩 类比:就像给 AI 装上眼睛,让它能识别物体、动作、甚至场景。
3)自然语言处理(Natural Language Processing, NLP)
📌 定义:让计算机理解、处理和生成自然语言(文字、语音等)。
🔍 示例:智能客服、机器翻译、文章生成、语音助手。
🧩 类比:让 AI “读书、说话、写作”,成为文字高手。
4)脑网络分析(Brain Network Analysis)
📌 定义:建模和分析不同脑区之间的连接关系,用于研究脑功能和疾病。
🔍 示例:基于 fMRI 数据进行阿尔茨海默症、ADHD 的分类。
🧩 类比:像绘制大脑“交通图”,分析神经高速公路的拥堵情况。
5)自动驾驶(Autonomous Driving)
📌 定义:在自动驾驶系统中使用感知、决策、控制等多种深度学习模型。
🔍 示例:车道线检测、障碍物识别、路径规划。
🧩 类比:把 AI 训练成“老司机”,能开车、看路、判断红绿灯。
6)推荐系统(Recommendation System)
📌 定义:预测用户喜好,推送个性化内容。
🔍 示例:淘宝商品推荐、抖音短视频推荐、B站弹幕推荐。
🧩 类比:像一个懂你的 AI 导购,总能猜到你想看啥、想买啥。
7)图像生成 / AI 艺术(Image Generation / AI Art)
📌 定义:生成图像、艺术作品,或将一种图像风格转为另一种。
🔍 示例:AI画画(如 DALL·E)、动漫上色、风格迁移。
🧩 类比:让 AI 拿起画笔,成为画家、插画师或设计师。
8)金融风控与预测(Financial Forecasting)
📌 定义:建模市场趋势、用户行为,实现风险控制或投资预测。
🔍 示例:信用评分、股票走势预测、诈骗检测。
🧩 类比:AI 成为“理财顾问”,帮你识别风险、把握行情。
9)工业质检(Industrial Quality Inspection)
📌 定义:在生产线上进行缺陷检测和自动分拣。
🔍 示例:芯片表面缺陷检测、包装瑕疵识别。
🧩 类比:AI 质检员,眼疾手快,不放过一丝瑕疵。
10)生物信息学 / 药物发现(Bioinformatics / Drug Discovery)
📌 定义:用于蛋白质结构预测、基因数据分析、药物筛选。
🔍 示例:AlphaFold 蛋白质折叠预测、AI辅助药物研发。
🧩 类比:AI 科学家,实验不休,助力攻克疾病难题。