随笔记录——不同模态信号、表征与应用

本文探讨了深度学习模型处理图像、文本和语音等不同模态信号的过程,从输入信号到前处理、浅层、深层、任务相关层及后处理的转化。重点介绍了CLIP模型在多模态表征学习中的应用,包括零样本学习和开放词汇目标检测,并提及了模型压缩与知识蒸馏的重要性。
摘要由CSDN通过智能技术生成

基本概述

深度学习模型(主要是感知类模型)接受的输入信号,主要包括图像、文本、语音等信号。不同模态的输入信号,经过模型的逐层抽象、转换之后,转变为不同程度的抽象表示(如语义、表征、编码知识等),并应用于不同的任务场景。

如上图所示,深度学习模型包含前处理、浅层、深层、任务相关层与后处理多个阶段,不同阶段的输入/输出具备不同的含义,简述如下(图像信号处理以CNN模型为例、语音/文本信号处理以BERT/Transformer模型为例):

  • 输入信号:模型接收的输入信号,是原始的、或仅初步加工的数据(raw data),包括自然信号(图像、语音)与人工信号(文本);自然信号通常包含噪声、且信息冗余度较高,需要利用全局/局部相关性实现去冗余;人工信号是人工定义的包含一定语义的符号,通常需要结合Context&#x
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值