多模态学习

最新推荐文章于 2024-08-20 18:02:23 发布

FufuHhuhu

最新推荐文章于 2024-08-20 18:02:23 发布

阅读量329

点赞数

文章标签： python 机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41843069/article/details/129169604

版权

模态：modality

多模态机器学习，英文全称 MultiModal Machine Learning (MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

五大分类

多模态表示学习

联合表示：将多模态信息映射到统一的多模态向量中

协同表示：将多模态中的每个模态分别映射到各自的表示空间，之后再做约束

相关论文：来自 NIPS 2012 的《Multimodal learning with deep boltzmann machines》

协同表示学习的经典应用：《Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models 》利用协同学习到的特征向量之间满足加减算数运算这一特性，可以搜索出与给定图片满足“指定的转换语义”的图片

模态之间的转换

机器翻译：类似将唇部视觉和语音信息转为文本信息以提高准确度

图片描述：给定图片指定的文本表述做关联

语音合成：根据文本信息自动合成一段语音信号

模态转换之间的难点：第一个是结束标志，第二个是主观评判，对于同一个物体的不同解释是有分歧的，一千个人有一千个哈默雷特

异构数据之间的对齐

时间维度的对齐：同一时间刻度下，不同模态需要信息对齐

空间维度的对齐：类似图片语义分割，尝试将图片的每个像素对应到某一种类型标签，实现视觉-词汇对齐。

多模态融合，又叫做多源信息融合，多传感器融合等

原始数据融合，特征数据融合以及决策数据融合

视频--音频融合

多模态情感分析（文本，面部表情，声音之间的融合）

身份认证，

协同学习：协同学习是指使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习。类似迁移学习，通过其他数据集上得出的参数，作为起始参数来微调自己的训练模型

零样本学习解释：https://blog.csdn.net/qq_40128284/article/details/107332320

显式对齐：LSTM + CNN

隐式对齐：引入注意力机制，允许编码器注重源的子组件部分

存在的问题：

很少有数据集具有显式对齐

模态之间的相似性难以度量

存在多可能的排列

博客等级

码龄7年

20
原创

4
点赞

27
收藏

2
粉丝

关注

私信

分类专栏

新手 5篇
目标检测 3篇
SSM 1篇
蓝桥杯 6篇
AOP 1篇
DFS 3篇
入门 4篇
连连看

最新评论

git初入门----虚拟机本地仓库链接远程仓库（SSH）
FufuHhuhu: 不好意思剛看到，你说的这个问题是需要将修改后的代码同步到github上，再去虚拟机中拉去
git初入门----虚拟机本地仓库链接远程仓库（SSH）
zhexueshijia: 我的项目是我用git连接远程仓库后拉取到虚拟机上的，又用phpstrom连接虚拟机下载项目，但是我现在修改项目后，项目的内容无法和虚拟机上的同步，这个问题该怎么办啊？还有我要是想在虚拟机上用git更新我远程项目到虚拟机上，这个该怎么弄啊？难道也是git pull吗？大佬，请给我解解惑
蓝桥杯2015题解
nameless550: 第二题答案是错的
蓝桥杯2015题解
FufuHhuhu: 哦哦，感谢指正
蓝桥杯2015题解
weixin_43798960: 第六题题解34行应为 for(int j=c;j<=c+2;j++){ ，题中漏掉了+2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。