人工智能术语（收藏版）

西瓜6

于 2025-03-24 18:26:46 发布

阅读量1k

点赞数 22

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/qq_37924224/article/details/146482767

版权

人工智能专栏收录该内容

2 篇文章

订阅专栏

人工智能术语

人工智能术语（收藏版）

人工智能术语

前言

可无脑收藏。针对读者：人工智能从业者和对人工智能感兴趣的人

通用基础术语

人工智能（Artificial Intelligence，AI）
人工智能是一门研究和开发能够模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的新技术科学。它涵盖了机器人、自然语言处理、图像识别等多个领域。
通用人工智能（Artificial General Intelligence，AGI）
通用人工智能是指具有高效的学习和泛化能力、能够根据所处的复杂动态环境自主产生并完成任务的通用人工智能体，具备自主的感知、认知、决策、学习、执行和社会协作等能力，且符合人类情感、伦理与道德观念。
生成式人工智能（Generative artificial intelligence，Gen AI）
生成式人工智能是人工智能的一个分支，是基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。
多模态（Multimodal）
多模态即多种异构模态数据协同推理。在人工智能领域中，往往指感知信息，如图像、文本、语音等协同，帮人工智能更准确地理解外部世界。
数据挖掘（Data Mining）
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

算力

算力是指计算设备在单位时间内能够处理的数据量或执行的操作数。它是衡量计算机或计算系统处理能力和效率的一个关键指标。算力越高，设备在相同时间内能够完成的计算任务就越多，处理速度也就越快

CPU
CPU（Central Processing Unit, 中央处理器）有两个主要部分，算术逻辑单元（ALU）和控制单元。ALU 允许执行算术（加法、减法等）和逻辑（AND、OR、NOT等）运算。控制单元控制 ALU、存储器和输入/输出（IO）功能，告诉它们如何响应刚刚从存储器中读取的程序。
GPU
GPU（graphics processing unit，图形处理器）最初是作为专用图形处理器，通常与显卡（具有更多硬件）混为一谈。GPU是一种通用并行处理器，最初用于图形处理，但现在也被广泛应用于深度学习等人工智能领域。与传统的CPU相比，GPU具有更多的计算核心和高速的内存带宽，可以显著加速矩阵运算等计算密集型任务。
FPGA
FPGA（Field Programmable Gate Array，可编程门阵列）是可编程逻辑器件，可以通过重新编程实现不同的功能。在人工智能领域，FPGA可以用于加速神经网络等任务。与GPU相比，FPGA具有更低的功耗和更好的灵活性，但需要更多的定制化设计和编程能力。

FPGA 相对于 CPU 与 GPU 有明显的能耗优势，主要有两个原因：（1）在 FPGA 中没有取指令与指令译码操作，在 Intel 的 CPU 里面，由于使用的是 CISC 架构，仅仅译码就占整个芯片能耗的 50%；（2）FPGA 的主频比 CPU 与 GPU 低很多，通常 CPU 与 GPU 都在 1GHz 到 3GHz 之间，而 FPGA 的主频一般在 500MHz 以下。FPGA与CPU在执行深度学习算法时的耗能对比。在执行一次深度学习运算，使用 CPU 耗能 36 焦，而使用 FPGA 只耗能 10 焦，取得了 3.5 倍左右的节能比。通过用 FPGA 加速与节能，让深度学习实时计算更容易在移动端运行。

相比CPU和GPU，FPGA 凭借比特级细粒度定制的结构、流水线并行计算的能力和高效的能耗，在深度学习应用中展现出独特的优势，在大规模服务器部署或资源受限的嵌入式应用方面有巨大潜力。此外，FPGA 架构灵活，使得研究者能够在诸如 GPU 的固定架构之外进行模型优化探究。

TPU
TPU（Tensor Processing Unit, 张量处理器）就是谷歌专门为加速深层神经网络运算能力而研发的一款芯片。

原来，很多机器学习算法跑在GPU与FPGA（半定制化芯片）上，但这两种芯片都还是一种通用性芯片，所以在效能与功耗上还是不能更紧密的适配机器学习算法， Google便想做出一款专用机机器学习算法的专用芯片，TPU便诞生了。

TPU与同期的CPU和GPU相比，可以提供15-30倍的性能提升，以及30-80倍的效率（性能/瓦特）提升。初代的TPU只能做推理，要依靠Google云来实时收集数据并产生结果，而训练过程还需要额外的资源；而第二代TPU既可以用于训练神经网络，又可以用于推理。

另外，TPU的高性能还来源于对于低运算精度的容忍。研究结果表明，低精度运算带来的算法准确率损失很小，但是在硬件实现上却可以带来巨大的便利，包括功耗更低、速度更快、占芯片面积更小的运算单元、更小的内存带宽需求等…TPU采用了8比特的低精度运算。到目前为止，TPU其实已经干了很多事情了，例如机器学习人工智能系统RankBrain，它是用来帮助Google处理搜索结果并为用户提供更加相关搜索结果的；还有街景Street View，用来提高地图与导航的准确性的；当然还有下围棋的计算机程序AlphaGo。

NPU
NPU（Neural network Processing Unit即神经网络处理器），是专门为加速神经网络和深度学习算法而设计的处理器。它通过模拟人脑神经元结构和工作原理，采用并行计算架构，能够同时处理多个神经网络层的数据，从而大幅提高计算效率。
DPU
DPU（Deep Processing Unit即数据处理单元）。是一种新型的可编程处理器，它被设计来专门处理数据中心中的网络、存储和计算任务。DPU被视为继CPU（中央处理单元）和GPU（图形处理单元）之后的“第三颗主力芯片”，在现代数据中心中扮演着至关重要的角色。
VPU
VPU（Vector Processing Unit 矢量处理器）是一种专门面向视频场景优化设计的视频加速器。它内置视频编码加速专用功能模块，具有高性能、低功耗、低延时等特性，为视频行业应用带来高效能的加速计算。VPU的出现主要是为了解决CPU处理视频的效率问题，因为视频数据量非常大，而CPU主要用于通用计算，无法满足需要高效处理大量视频数据的要求。
BPU
BPU（Brain Processing Unit，大脑处理器）是由地平线科技提出的嵌入式人工智能处理器架构。它专门为人工智能应用设计，尤其聚焦于深度神经网络的高效计算。BPU的目标是解决传统处理器在处理大规模并行计算任务时的效率问题，特别是在图像识别、语音处理、自然语言理解和控制等领域。
MACs
MACs（Multiply Accumulate Operations，乘加累积操作次数），有时也用MAdds（Multiply-Add operations）表示，是微处理器中的特殊运算。MACs也可以为是描述总计算量的单位，但常常被人们与FLOPs概念混淆(Python第三方包Torchstat、Thop等），实际上一个MACs包含一个乘法操作与一个加法操作，因此1个MACs约等价于2个FLOPs，即 1 MACs = 2 FLOPs ，1GMACs = 10^9 MACs。
FLOPS
FLOPS（floating-point operations per second每秒浮点运算次数）是指计算机处理浮点运算（带有小数点的数字进行数学运算，需要考虑精度问题和舍入误差等问题）的能力，它衡量的是计算机每秒能够完成多少次浮点运算。FLOPS是衡量计算机高性能计算能力的指标，通常用于衡量超级计算机、高性能计算服务器和图形处理器（GPU）等的计算能力。
IPS
IPS（每秒指令数）是指计算机处理指令的速度，它衡量的是计算机每秒能够执行多少条指令。IPS是衡量计算机单指令性能的指标，通常用于衡量中央处理器（CPU）等的性能。例如，一个CPU的IPS为3 GHz（每秒可以执行3亿次指令），意味着它每秒可以执行3亿次指令。
TPS
TPS（每秒事务数）是指计算机处理事务的能力，它衡量的是计算机每秒可以完成多少个事务。通常用于衡量数据库服务器的性能。例如，一个数据库服务器的TPS为1000，意味着它每秒可以处理1000个数据库事务。

此外，还有一些针对特定应用场景的算力指标，如MIPS、DMIPS、OPS等。

基础算力
由基于 CPU 芯片的服务器所提供的算力，主要用于基础通用计算，如：移动计算和物联网等。日常提到的云计算、边缘计算等均属于基础算力。
智能算力
基于 GPU、FPGA、ASIC 等 AI 芯片的加速计算平台提供的算力，主要用于人工智能的训练和推理计算，比如语音、图像和视频的处理。
超算算力
由超级计算机等高性能计算集群所提供的算力，主要用于尖端科学领域的计算，比如行星模拟、药物分子设计、基因分析等。

AI芯片可以分为Training(训练)和Inference(推理)。

训练算力：通常需要通过大量的数据输入，训练过程由于涉及海量的训练数据和复杂的深度神经网络结构，运算量巨大，需要庞大的计算规模，对于处理器的计算能力、精度、可扩展性等性能要求很高。类似于探索菜谱的过程。

推理算力：利用训练好的模型，使用新的数据去“推理”出各种结论，进行应用。Inference的计算量相比Training少很多。类似于形成菜谱后，进行批量生产菜的过程。

机器学习 (Machine Learning, ML)

机器学习是指使用统计学、线性代数、优化算法等数学方法，从已有数据中学习并构建预测模型，进而用于对未知数据的预测和分类的一种方法。其主要特点是需要手工设计特征，并使用传统的机器学习算法来训练模型。常见的传统机器学习算法包括线性回归、逻辑回归、决策树、支持向量机、朴素贝叶斯等。

监督学习 (Supervised Learning)
一种机器学习方法，通过提供带有标签的训练数据来训练模型。模型学习输入数据和输出标签之间的映射关系，以便对新的未见过的数据进行预测。

无监督学习 (Unsupervised Learning)
一种机器学习方法，通过未标记的数据来发现数据中的内在结构和模式。常见的无监督学习任务包括聚类、降维和异常检测。
半监督学习 (Semi-Supervised Learning)
一种介于监督学习和无监督学习之间的机器学习方法，使用少量带有标签的数据和大量未标记的数据来进行训练。这种方法可以提高模型的泛化能力。
强化学习 (Reinforcement Learning, RL)
一种通过与环境交互来学习最优策略的方法。智能体通过执行动作获得奖励或惩罚，并通过最大化累积奖励来学习最佳行为。
数据预处理 (Data Preprocessing)
清洗、转换原始数据以使其适合于机器学习模型的过程。
数据标注（Data Annotation）
数据标注是将原始数据转化为机器学习算法可理解的形式的过程，通过标注后的数据，机器可以学习到各种任务，如分类、回归、目标检测等。
归一化/标准化 (Normalization/Standardization)
将数值属性缩放到特定范围（如0-1）或将它们转换成标准正态分布的过程。
特征工程 (Feature Engineering)
一种通过选择、转换和创建特征来提高模型性能的过程。特征工程包括特征选择、特征提取和特征构造等步骤。
特征选择 (Feature Selection)
选择最重要的特征来简化模型，避免过拟合。
特征缩放 (Feature Scaling)
对特征值进行比例调整，使得不同的特征具有可比较的尺度。
数据清洗 (Data Cleaning)
删除或修正数据集中的错误和不一致。
数据增强 (Data Augmentation)
通过添加轻微变化来扩充训练数据集，常用于图像和语音数据。
训练集 (Training Set)
用于训练机器学习模型的数据集。模型通过学习训练集中的数据来调整其参数，以最小化损失函数。
验证集 (Validation Set)
用于评估模型在训练过程中的性能的数据集。验证集帮助调整模型的超参数，并防止过拟合。
测试集 (Test Set)
用于评估最终训练好的模型性能的数据集。测试集的数据在模型训练过程中未被使用，以确保评估结果的客观性。
过拟合 (Overfitting)
模型在训练数据上表现很好，但在未见过的数据上表现较差的现象。过拟合通常是由于模型过于复杂或训练数据不足造成的。
欠拟合 (Underfitting)
模型在训练数据和未见过的数据上表现都不好的现象。欠拟合通常是由于模型过于简单或特征不足造成的。
损失函数 (Loss Function)
用于衡量模型预测值与实际值之间差异的函数。损失函数越小，模型的性能越好。常见的损失函数包括均方误差（MSE）、交叉熵损失等。
正则化 (Regularization)
一种防止过拟合的技术，通过在损失函数中添加正则项来约束模型的复杂度。常见的正则化方法包括L1正则化（Lasso）和L2正则化（Ridge）。
交叉验证 (Cross-validation)
一种评估预测模型性能的技术，通常将数据分成几个部分，轮流使用一部分作为测试集而其余部分作为训练集。
超参数 (Hyperparameter)
在开始学习过程之前设置的参数，它们会影响模型的学习过程，但不是直接从数据中学到的。
学习率 (Learning Rate)
在梯度下降等优化算法中决定每一步更新权重大小的参数。
梯度下降 (Gradient Descent)
一种用于最小化损失函数的迭代优化算法。
精确率 (Precision)
正确预测为正例的比例。
召回率 (Recall)
实际为正例中被正确预测为正例的比例。
F1分数 (F1 Score)
精确率和召回率的调和平均数，用来综合评价二分类模型的性能。
混淆矩阵 (Confusion Matrix)
用于可视化分类模型性能的矩阵。
ROC曲线 (Receiver Operating Characteristic Curve)
一种图形化地展示分类器系统性能的方法，通常用在二分类问题中。
AUC (Area Under the Curve)
ROC曲线下面积，AUC值越大，表示分类器的区分能力越强。
线性回归 (Linear Regression)
一种预测模型，它假设因变量和自变量之间存在线性关系。
逻辑回归 (Logistic Regression)
一种分类算法，尽管名字中有“回归”，但实际上用于二分类或多分类问题。
决策树 (Decision Tree)
一种树形结构模型，通过一系列规则（即特征上的条件）来做出决策。
随机森林 (Random Forest)
一种集成学习方法，使用多棵决策树来提高预测准确性。
支持向量机 (Support Vector Machine, SVM)
一种寻找最优超平面来划分不同类别的算法。
K-近邻算法 (K-Nearest Neighbors, KNN)
一种基于实例的学习方法，根据最近邻居的类别来预测新样本的类别。
朴素贝叶斯 (Naive Bayes)
基于贝叶斯定理的分类算法，假设特征之间相互独立。
神经网络 (Neural Networks, NN)
一种计算模型，由大量节点（或称为“神经元”）组成，这些节点通过连接彼此传递信息。神经网络可以学习输入数据和输出数据之间的复杂映射关系。

地捕捉长期依赖关系。

深度学习(Deep Learning，DL)
深度学习是机器学习的一种高级形式，特指基于深层神经网络模型和方法的机器学习。
卷积神经网络 (Convolutional Neural Networks, CNN)
一种专门用于处理具有网格结构数据（如图像）的神经网络。CNN通过卷积层、池化层和全连接层来提取特征并进行分类或回归。
循环神经网络 (Recurrent Neural Networks, RNN)
一种适用于处理序列数据（如时间序列、文本）的神经网络。RNN具有记忆功能，可以记住之前的输入并影响当前的输出。
长短期记忆网络 (Long Short-Term Memory, LSTM)
一种特殊的RNN，设计用于解决RNN在处理长序列时的梯度消失问题。LSTM通过引入门控机制来控制信息的流动，这样能够有效地保留长期依赖的信息。
生成对抗网络 (Generative Adversarial Networks, GAN)
由两个网络组成的框架，一个生成网络和一个判别网络，通过竞争学习来生成逼真的数据。
自编码器 (Autoencoders)
一种用于无监督学习的神经网络，能够学习数据的有效编码。
梯度提升 (Gradient Boosting)
通过逐步增加新模型来纠正先前模型的误差，从而提高整体模型性能。
XGBoost (eXtreme Gradient Boosting)
一种高效的梯度提升实现。
AdaBoost (Adaptive Boosting)
一种迭代的提升算法，它根据每个样本被正确分类的概率来调整样本权重。
LightGBM (Light Gradient Boosting Machine)
另一种高效且快速的梯度提升框架。
CatBoost (Categorical Boosting)
专为处理类别特征而优化的梯度提升库。
集成学习 (Ensemble Learning)
组合多个模型以改善单一模型的预测性能。
Bagging (Bootstrap Aggregating)
通过结合多个弱学习器的预测来减少模型的方差。
Boosting
通过迭代地训练模型并聚焦于难分类的样本来提高整体性能。
预训练模型 (Pre-trained Model)
在其他任务上已经训练好的模型，用于初始化新任务模型的参数。
迁移学习 (Transfer Learning)
将预训练模型的参数迁移到新任务的模型中，提高新任务模型的训练速度和性能。
fine-tune
在预训练模型的基础上，针对特定任务进行微调的过程。
条件随机场 (Conditional Random Field, CRF)
一种用于建模序列数据的统计模型，常用于图像分割和识别任务。
Transformer
一种基于自注意力机制的架构，可以将一种类型的输入转换为另一种类型的输出，它可以用于生成文本、图像和机器人指令，处理序列数据，并且可以对不同数据模式之间的关系进行建模。
注意力机制 (Attention Mechanism)
使模型能够专注于输入序列的特定部分的技术。
自注意力机制 (Self-Attention Mechanism)
允许模型在处理序列时关注序列中的不同部分，从而捕获长距离依赖关系。
多头注意力 (Multi-Head Attention)
通过并行运行多个自注意力机制来捕获不同类型的依赖关系。
位置编码 (Positional Encoding)
为了保留序列中元素的顺序信息，向输入中添加的位置信息。
编码器 (Encoder)
Transformer架构的一部分，负责将输入序列编码为隐状态。
解码器 (Decoder)
Transformer架构的一部分，负责根据编码器的输出生成输出序列。
前馈神经网络 (Feed-Forward Neural Network, FFN)
Transformer中的一个全连接层，用于处理自注意力机制的输出。
批次 (Batch)
在一次前向传播和反向传播过程中使用的样本集合。
批次大小 (Batch Size)
一个批次中包含的样本数量。
时期 (Epoch)
完整遍历一次训练数据集的过程。
梯度下降 (Gradient Descent)
一种优化算法，通过沿着负梯度方向更新参数来最小化损失函数。
学习率 (Learning Rate)
优化算法中控制参数更新幅度的超参数。
Adam优化器 (Adam Optimizer)
一种自适应学习率的优化算法，结合了动量和自适应学习率的优点。
学习率衰减 (Learning Rate Decay)
在训练过程中逐渐降低学习率，以稳定训练过程。
推理 (Inference)
使用训练好的模型对新数据进行预测。

自然语言处理 (Natural Language Processing, NLP)

一种使计算机能够理解、解释和生成人类语言的技术。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。

语料库 (Corpus)
用于训练和测试NLP模型的大型文本集合。
分词 (Tokenization)
将文本分割成单词、短语或其他有意义的元素的过程。
词典 (Lexicon)
词汇及其含义的集合。
词性标注 (Part-of-Speech Tagging, POS Tagging)
为文本中的每个单词分配词性（名词、动词等）的过程。
词干提取 (Stemming)
将单词还原到基本形式的过程，例如将“running”还原为“run”。
词形还原 (Lemmatization)
将单词还原到词典形式的过程，考虑了词的形态变化。
停用词 (Stop Words)
在文本处理中通常被忽略的常见词，如“的”、“是”、“在”。
词袋模型 (Bag of Words)
一种文本表示方法，忽略单词顺序和语法，只考虑单词的出现。
TF-IDF (Term Frequency-Inverse Document Frequency)
一种衡量单词对于文档集或语料库中其中一份文档的重要性的统计方法。
语义分析 (Semantic Analysis)
分析和理解单词、短语和句子的意义。
命名实体识别 (Named Entity Recognition, NER)
识别文本中的特定实体，如人名、地点、组织。
依存句法分析 (Dependency Parsing)
分析句子中单词之间的依存关系。
句法分析 (Syntactic Parsing)
分析句子的语法结构，通常以树状图表示。
词嵌入 (Word Embeddings)
将词映射到高维向量空间的技术。
one-hot编码 (One-Hot Encoding)
将每个词表示为一个唯一的向量，向量中只有一个元素为1，其余为0。
词向量 (Word Vectors)
词的密集向量表示，通常通过训练得到。
Word2Vec
一种流行的词嵌入技术，通过神经网络学习词向量。
情感分析 (Sentiment Analysis)
确定文本表达的情绪倾向，如积极、消极或中性。
机器翻译 (Machine Translation)
自动将一种语言的文本翻译成另一种语言的技术。
问答系统 (Question Answering System)
自动回答有关给定文本的问题的系统。
聊天机器人 (Chatbot)
通过文本或语音与人类进行交流的计算机程序。
语言模型 (Language Model)
预测一系列单词出现概率的模型。
知识图谱（Knowledge Graph）
知识图谱是一种表示实体（如人、地点、事物等）之间关系的大规模语义网络。它可以帮助机器理解人类知识的结构和内容，常用于智能问答、推荐系统等。
序列到序列模型 (Seq2Seq)
一种处理序列数据的模型，常用于机器翻译和文本摘要。
词嵌入 (Word Embeddings)
将单词映射到高维空间的向量，以捕捉语义关系。
BERT (Bidirectional Encoder Representations from Transformers)
一种预训练语言表示的方法，通过考虑上下文来改进词嵌入。
语义角色标注 (Semantic Role Labeling, SRL)
识别句子中谓词的论元及其角色。
共指消解 (Coreference Resolution)
确定文本中代词和名词短语指向相同实体的过程。

计算机视觉（Computer Vision，CV）

一门研究如何使机器“看”的科学，目的是使计算机能够像人一样“看懂世界”。更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

图像 (Image)
二维的像素阵列，每个像素代表一个颜色或灰度值。
视频 (Video)
一系列连续的图像帧，通常以一定速率播放。
像素 (Pixel)
图像中的最小单位，表示图像中的一个点。
分辨率 (Resolution)
图像的宽度和高度，通常以像素数表示。
色彩空间 (Color Space)
描述颜色的数学模型，如RGB、HSV、YUV等。
灰度 (Grayscale)
仅包含亮度信息而不含色彩信息的图像。图像处理
滤波 (Filtering)
通过应用滤波器来改变图像的特性，如平滑、锐化等。
卷积 (Convolution)
一种数学运算，常用于图像处理中的滤波操作。
边缘检测 (Edge Detection)
识别图像中物体边界的算法，如Sobel、Canny等。
阈值处理 (Thresholding)
将图像中的像素值转换为二进制值（黑或白）的过程。
形态学操作 (Morphological Operations)
如膨胀、腐蚀、开运算、闭运算等，用于处理二值图像中的形状。
直方图均衡化 (Histogram Equalization)
一种增强图像对比度的技术。
特征 (Feature)
图像中可用于识别或分类的独特属性。
特征点 (Keypoint)
图像中的显著点，如角点、边缘点等。
特征描述符 (Feature Descriptor)
用于描述特征点周围区域的向量表示。
图像分割 (Image Segmentation)
将图像分割成多个区域或对象的过程。
阈值分割 (Threshold Segmentation)
基于像素值的简单分割方法。
区域生长 (Region Growing)
从种子点开始，逐渐合并相似的相邻像素。
超像素 (Superpixel)
一种将图像分割成更大、更均匀区域的方法，每个区域内的像素具有相似的属性。
边界框 (Bounding Box)
用于表示对象位置的矩形框。
人脸识别 (Face Recognition)
识别和验证图像或视频中的人脸。
姿态估计 (Pose Estimation)
估计图像或视频中人体或物体的姿态。
立体视觉 (Stereo Vision)
通过两幅或多幅图像来恢复场景的三维信息。
深度图 (Depth Map)
表示图像中每个像素到相机距离的图。
点云 (Point Cloud)
由三维空间中的点组成的数据集，用于表示物体的表面。
多视图几何 (Multi-View Geometry)
研究多个视角下图像之间的几何关系。
卡尔曼滤波 (Kalman Filter)
一种递归滤波器，用于估计动态系统的状态。
粒子滤波 (Particle Filter)
一种基于蒙特卡洛方法的滤波器，用于跟踪非线性系统。
光流 (Optical Flow)
估计图像序列中像素的运动。
图像分类 (Image Classification)
从给定的分类集合中给图像分配一个标签的任务。
目标检测 (Object Detection)
在图像中识别出所有目标的位置，并给出每个目标的具体类别。
语义分割 (Semantic Segmentation)
将图像分成像素组，并对像素组进行标记和分类，理解图中每个像素是什么。
实例分割 (Instance Segmentation)
在语义分割的基础上，区分不同实例，如区分不同的车辆。
扩散模型（Diffusion Models）
扩散模型是一类基于概率生成模型的深度学习方法，通过模拟物理扩散过程，将数据逐步转化为噪声，然后学习逆向过程，从噪声中逐步恢复出原始数据，实现高质量的生成效果，在图像生成、语音合成、文本生成等领域取得了显著的成果。
视频分类 (Video Classification)
对由多帧图像构成的视频对象进行分类，需要理解每帧图像包含的内容及上下文关联信息。
人体关键点检测 (Human Keypoint Detection)
通过追踪人体关键节点来识别人的运动和行为。
场景文字识别 (Scene Text Recognition)
在图像背景复杂、分辨率低下等情况下，将图像信息转化为文字序列的过程。
目标跟踪 (Object Tracking)
在特定场景跟踪一个或多个特定感兴趣对象的过程。
卷积神经网络 (Convolutional Neural Network, CNN)
一种深度学习模型，有效提取图像特征并进行降维。
特征提取 (Feature Extraction)
从图像中提取有助于理解图像内容的信息。
数据增强 (Data Augmentation)
通过旋转、缩放、裁剪等方法增加数据多样性，提高模型泛化能力。
Embedding
将高维数据转换为低维向量的过程，在计算机视觉中用于将像素值转换为向量。
自动驾驶 (Autonomous Driving)
使用计算机视觉技术来感知和理解道路环境。
医疗影像分析 (Medical Image Analysis)
用于诊断和治疗规划的医学图像处理。

大语言模型（Large Language Model, LLM）

基于海量文本数据训练的深度学习模型，旨在理解和生成人类语言。

大模型（Large Model）
指具有大规模参数和复杂计算结构的机器学习模型，能够处理海量数据、完成各种复杂的任务
预训练 (Pre-training)
在大规模无标签数据上进行的初步训练，目的是学习通用的语言表示。
上下文学习 (Contextual Learning)
模型能够根据上下文来理解和生成文本，而不是仅仅依赖固定的词向量。
掩码语言模型 (Masked Language Model, MLM)
一种预训练任务，随机遮盖输入序列中的某些词，模型需要预测这些被遮盖的词。
下一句预测 (Next Sentence Prediction, NSP)
一种预训练任务，模型需要预测两个句子是否是连续的。
因果语言模型 (Causal Language Model, CLM)
一种预训练任务，模型需要预测序列中的下一个词。
早停 (Early Stopping)
一种防止过拟合的技术，当验证集上的性能不再提升时停止训练。
权重衰减 (Weight Decay)
一种正则化技术，通过在损失函数中添加权重的平方和来防止过拟合。
零样本学习 (Zero-Shot Learning)
模型在没有见过特定任务的训练数据的情况下，能够执行该任务。
少样本学习 (Few-Shot Learning)
模型在仅有少量有标签数据的情况下，能够快速适应新任务。
微调评估 (Fine-tuning Evaluation)
在特定任务上微调模型后，对其进行评估。
零样本评估 (Zero-Shot Evaluation)
在没有微调的情况下，直接评估模型在特定任务上的表现。
少样本评估 (Few-Shot Evaluation)
在少量有标签数据上微调后，评估模型的表现。
困惑度 (Perplexity)
用于评估语言模型性能的指标，值越低表示模型越好。
BLEU(Bilingual Evaluation Understudy)
一种用于评估机器翻译质量的指标。
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)
一种用于评估文本摘要质量的指标。
人工评估 (Human Evaluation)
通过人工评分来评估模型生成文本的质量。
量化 (Quantization)
将模型的权重和激活值从浮点数转换为整数，以减少模型大小和加快推理速度。
剪枝 (Pruning)
通过移除模型中不重要的权重来减少模型大小和提高效率。
知识蒸馏 (Knowledge Distillation)
通过训练一个小模型来模仿大模型的行为，从而获得更小、更快的模型。
大模型词元 (Tokens)
Token是指语言模型中用来表示中文汉字、英文单词、或中英文短语的符号。通常1 token等于1-2个汉字，3-4个字母（由底座大模型决定）。
大模型参数数量 (x B)
模型的参数数量是衡量其规模和复杂度的一个重要指标,主要由模型架构，数据规模决定。
监督微调 (Supervised Fine-Tuning SFT)
利用标记好的特定任务数据对预训练大模型进行微调。
从人类反馈中进行强化学习（Reinforcement Learning from Human Feedback，RLHF）
首先使用预训练模型生成一些文本，然后由人类对这些文本进行评估和反馈，将人类反馈转化为奖励信号，再通过强化学习算法让模型根据奖励信号调整生成策略，以生成更符合人类期望的文本。
指令微调（Instruction Tuning，IFT）
使用包含特定指令和相应文本的数据集对预训练模型进行微调。
全参微调（Full Fine-Tuning）
对预训练模型的所有参数进行更新，使其适应特定任务。
参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）
通过最小化微调参数数量和计算复杂度，提升预训练模型在新任务上的表现，从而减轻大型预训练模型的训练负担。常见的参数高效微调包括LoRA,P-Tuning等。
提示词（Prompt）
指输入给模型的一段文本或一组指令，用于引导模型生成特定的输出。
提示词工程（Prompt Engineering）
设计、优化和管理输入到语言模型等人工智能系统中的提示词，以引导模型生成更符合预期、更有用、更准确的输出的一项工程技术。
检索增强生成（RAG, “Retrieval-Augmented Generation” ）
在生成响应时，先由检索系统从大规模知识库中快速定位相关信息，再由生成模型利用检索到的信息和用户查询生成连贯、准确的响应。
束搜索（Beam Search）
一种在生成文本时用于选择最优路径的搜索算法。
温度参数（Temperature ）
用于控制采样过程中的随机性程度，温度越高，采样越随机，生成的文本越具有多样性但可能质量越低；温度越低，采样越偏向于概率较高的单词或字符，生成的文本更保守但更符合语言模型的预测分布。
最大长度限制（Max Length）
在生成文本时，对生成的文本长度设置的最大值限制，以防止生成过长的文本导致生成质量下降或出现无限循环等问题。
大模型应用开发框架
帮助开发者更高效地构建各种语言相关的应用程序，常见的开发框架包括langchain, ollama, LlamaIndex等。
智能体（Agent）
一种基于大语言模型构建的具有自主性、决策能力和执行能力的智能实体，能够感知环境、理解任务目标，并通过调用各种工具和资源来独立完成任务。
L0大模型
具备基础的语言生成和理解能力，可用于一些简单的文本生成任务，如自动补全、简单的文本摘要等，但生成的内容可能相对较为基础和通用，缺乏对特定任务或领域的深度理解和针对性。
L1大模型
在 L0 的基础上，L1 大模型开始具备一定的特定领域知识和能力，能够对某一特定领域的文本进行更准确的理解和生成。
L2大模型
L2 大模型具备更强的复杂任务处理能力，能够理解和处理多轮对话、长篇文本等复杂的语言交互情境，并且在逻辑推理、情感分析、语义理解等方面有更出色的表现。
L3大模型
L3 大模型展现出高度的智能和自主性，不仅能够理解和生成复杂的语言内容，还能够像人类一样进行自主的学习、思考和决策。具备更强的问题解决能力和创新能力，能够在面对新问题和未知情境时，通过自我探索和学习找到解决方案。