新闻故事分割-day4

“Multimodal fusion for multimedia analysis: a survey.” Multimedia Systems 16.6(2010):345-379.
本文章研究了多模态的融合机制,分析了几种融合方式的基本概念,优势,缺点,以及在不同的任务中的使用方法。几个不同的关键问题会影响融合过程,如多模态的相关性与独立性,置信水平,上下文信息,同步性,最优模式的选择也被凸显出来。
关键词:Multinodal information fusion ,
Multimedia analysis
1.多模态融合的不同属性会带来一定的成本和复杂度
融合多模态处理要解决如何使不同内体数据同步。如从视频以帧率提取,而音频采样则可能不同。
不同类型的媒体流的处理时间也不同,因此会影响融合方法的选择。
如何合适的利用相关性与独立性。低级特征和高级语义特征的相关性可以从不同的媒体流中提取,独立性同样可以为决定提供额外的线索。基于特定的场景和上下文下,相关性和独立性会具有相同的作用。
不同的模态有不同的置信水平,如哭的检测,语音比视频检测更可靠
处理媒体流会有成本,会影响融合过程。
2.几大挑战
融合的层次:是低级特征,还是高级语义特征
如何融合:本文讨论如何利用模态间的多特征以及决策水平进行融合,上下文以及置信水平水平信息是如何影响整个融合处理。
什么时候融合:不同数据的采样率,处理时间为同步融合这些特征提出了挑战。
融合什么:融合中的模态之间可能会相互补充也可能会相互冲突,因此最为重要的是知道哪些特征能处解决你的任务。
3.集中融合方式的介绍
1)特征层次的融合:
优点:在最初时利用多种模态特征的联系;仅需要对组合特征向量进行一个学习阶段。
缺点:多模态特征很难时间同步,也很难从不同的特征中学习到他们之间的交叉联系
2)决策层的融合
优点:能够以统一的形式表达,更加容易融合;决策层的融合是可以度量的,而特征层融合很难做到这一点;对于不同模态可以利用对应的最最为合适的方法去分析。
缺点:无法利用特征层次的相关性;使用不同的分类器来获得局部决策,这个学习过程更加复杂。
3)混合多模态融合
即利用了特征层的融合也利用到了决策层的融合。
4.多模态特征融合方法的介绍
1)基于规则的融合方法
1.1)线性权重
权重归一化:min-max ,decimal scaling,z score,tanh-estimator ,sigmoid function.
其中tanh 同时兼具鲁棒性和有效性但是需要通过训练评估参数。
有线性和法和线性积的方法。
在这里插入图片描述
线性权重需要决定和调整权重值来适应不同的任务。
【87】Joint processing of audio and visual information
for multimedia indexing and human-computer interaction. In:
International Conference RIAO. Paris, France (2000) 说话认识别,和说话事件检测基于音频和视觉特征。
【83】基于文本和多模态视觉信息做检索。采用决策层次的线性权重融合方式融合检索的打分和排序。
总结:优化权重参数是线性权重法的最大困难
1.2)多数表决
1.3)自定义规则
【12】 Event based indexingof broadcasted sports video by intermodal collaboration . IEEE Trans(2002).基于知识的技术,基于字幕文本与视频镜头片段的相关性,索引新闻视频。字幕文本提取为关键词,视频特征是颜色分布的时序变换。
用户制定规则是比较灵活的方法,但是该项规则只能运用于特定的领域。
(11.7日,什么破事干嘛放在心上,学习吧,和优秀的人一起学习的更好!!!)
3.2.2
贝叶斯推测:
在这里插入图片描述
在这里插入图片描述为从n中模态中提取的特征向量或决策向量,wk为第k种模态的权值,所有权值的和为1.该后验概率计算所有可能的假说,最大概率由MAP决定在这里插入图片描述
贝叶斯法的优缺点:
可以基于新的观测量来逐步的计算假说的正确概率,同时允许利用主观经验来估计前验概率。缺点是,当没有确定的前验概率,也无法通过主观经验确定合适的前验概率值时,该方法就有局限性。
利用方式:基于多种特征数据,利用HMM等分类器做出概率估计(决策层),利用贝叶斯结合多个概率个估计来估计某假说的联合概率值。
day 6:论文引证了大量的案列,从中应该挑出最佳的融合方法仔细研读,并且该方法融合了音视频,文本等特征。
3.2.3Dempster-Shafer theory
(明天接着看完:关注1.有没有与自己的方法相似的2.每种融合模式的问题在哪里,是否严重影响结果,解决方法是——论文中最优的方法是?)

二级相关文章: “Exploiting Feature and Class Relationships in Video Categorization with Regularized Deep Neural Networks.” IEEE Transactions on Pattern Analysis & Machine Intelligence PP.99(2018):1-1.(主要融合多特征做视频分类,待读。。。。)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值