基本概述
深度学习模型(主要是感知类模型)接受的输入信号,主要包括图像、文本、语音等信号。不同模态的输入信号,经过模型的逐层抽象、转换之后,转变为不同程度的抽象表示(如语义、表征、编码知识等),并应用于不同的任务场景。
如上图所示,深度学习模型包含前处理、浅层、深层、任务相关层与后处理多个阶段,不同阶段的输入/输出具备不同的含义,简述如下(图像信号处理以CNN模型为例、语音/文本信号处理以BERT/Transformer模型为例):
- 输入信号:模型接收的输入信号,是原始的、或仅初步加工的数据(raw data),包括自然信号(图像、语音)与人工信号(文本);自然信号通常包含噪声、且信息冗余度较高,需要利用全局/局部相关性实现去冗余;人工信号是人工定义的包含一定语义的符号,通常需要结合Context&#x