单模态模型和多模态模型的架构
这张图主要关注不同模型的架构
语义通信
- 文本语义通信
消息中的每个单词都被转换为token,token是语义表示的基本单位。Trasnformer结构被广泛使用。
基于知识库的语义通信系统能够根据知识库描述的关系预测单词,而不是仅仅依赖上下文,因此提高了预测的准确性。例如,[1]引入了知识库驱动的语义通信系统,并在语义编码器和语义解码器中使用Text2KG和KG2Text网络 - 音频语义通信
利用NLP技术可以将音频转换成文本,但音频还需要考虑保真度
、音量
、频率
和音调
。
可以采用信号失真比(SDR)和语音质量感知评估(PESQ)用作评估重建语音信号质量的性能指标 - 图像传输
Transformer、CNN、GAN通常用于图像语义通信 - 视频传输
相较于图像传输,视频传输需要保持连续帧之间的时间一致性,以考虑时间维度
参考文献
[1] Cognitive Semantic Communication Systems Driven by Knowledge Graph