新闻故事分割-day4

最新推荐文章于 2020-10-16 14:10:15 发布

福min

最新推荐文章于 2020-10-16 14:10:15 发布

阅读量308

点赞数

分类专栏：新闻故事分割

本文链接：https://blog.csdn.net/nana13628679472/article/details/83615424

版权

新闻故事分割专栏收录该内容

1 篇文章 0 订阅

订阅专栏

“Multimodal fusion for multimedia analysis: a survey.” Multimedia Systems 16.6(2010):345-379.
本文章研究了多模态的融合机制，分析了几种融合方式的基本概念，优势，缺点，以及在不同的任务中的使用方法。几个不同的关键问题会影响融合过程，如多模态的相关性与独立性，置信水平，上下文信息，同步性，最优模式的选择也被凸显出来。
关键词：Multinodal information fusion ,
Multimedia analysis
1.多模态融合的不同属性会带来一定的成本和复杂度：
融合多模态处理要解决如何使不同内体数据同步。如从视频以帧率提取，而音频采样则可能不同。
不同类型的媒体流的处理时间也不同，因此会影响融合方法的选择。
如何合适的利用相关性与独立性。低级特征和高级语义特征的相关性可以从不同的媒体流中提取，独立性同样可以为决定提供额外的线索。基于特定的场景和上下文下，相关性和独立性会具有相同的作用。
不同的模态有不同的置信水平，如哭的检测，语音比视频检测更可靠
处理媒体流会有成本，会影响融合过程。
2.几大挑战：
融合的层次：是低级特征，还是高级语义特征
如何融合：本文讨论如何利用模态间的多特征以及决策水平进行融合，上下文以及置信水平水平信息是如何影响整个融合处理。
什么时候融合：不同数据的采样率，处理时间为同步融合这些特征提出了挑战。
融合什么：融合中的模态之间可能会相互补充也可能会相互冲突，因此最为重要的是知道哪些特征能处解决你的任务。
3.集中融合方式的介绍
1)特征层次的融合：
优点：在最初时利用多种模态特征的联系；仅需要对组合特征向量进行一个学习阶段。
缺点：多模态特征很难时间同步，也很难从不同的特征中学习到他们之间的交叉联系
2）决策层的融合
优点：能够以统一的形式表达，更加容易融合；决策层的融合是可以度量的，而特征层融合很难做到这一点；对于不同模态可以利用对应的最最为合适的方法去分析。
缺点：无法利用特征层次的相关性；使用不同的分类器来获得局部决策，这个学习过程更加复杂。
3）混合多模态融合
即利用了特征层的融合也利用到了决策层的融合。
4.多模态特征融合方法的介绍
1)基于规则的融合方法
1.1）线性权重
权重归一化：min-max ,decimal scaling,z score,tanh-estimator ,sigmoid function.
其中tanh 同时兼具鲁棒性和有效性但是需要通过训练评估参数。
有线性和法和线性积的方法。
在这里插入图片描述
线性权重需要决定和调整权重值来适应不同的任务。
【87】Joint processing of audio and visual information
for multimedia indexing and human-computer interaction. In:
International Conference RIAO. Paris, France (2000) 说话认识别，和说话事件检测基于音频和视觉特征。
【83】基于文本和多模态视觉信息做检索。采用决策层次的线性权重融合方式融合检索的打分和排序。
总结：优化权重参数是线性权重法的最大困难
1.2）多数表决
1.3)自定义规则
【12】 Event based indexingof broadcasted sports video by intermodal collaboration . IEEE Trans（2002）.基于知识的技术，基于字幕文本与视频镜头片段的相关性，索引新闻视频。字幕文本提取为关键词，视频特征是颜色分布的时序变换。
用户制定规则是比较灵活的方法，但是该项规则只能运用于特定的领域。
(11.7日，什么破事干嘛放在心上，学习吧，和优秀的人一起学习的更好！！！)
3.2.2
贝叶斯推测：
在这里插入图片描述
为从n中模态中提取的特征向量或决策向量，wk为第k种模态的权值，所有权值的和为1.该后验概率计算所有可能的假说，最大概率由MAP决定
贝叶斯法的优缺点：
可以基于新的观测量来逐步的计算假说的正确概率，同时允许利用主观经验来估计前验概率。缺点是，当没有确定的前验概率，也无法通过主观经验确定合适的前验概率值时，该方法就有局限性。
利用方式：基于多种特征数据，利用HMM等分类器做出概率估计（决策层），利用贝叶斯结合多个概率个估计来估计某假说的联合概率值。
day 6:论文引证了大量的案列，从中应该挑出最佳的融合方法仔细研读，并且该方法融合了音视频，文本等特征。
3.2.3Dempster-Shafer theory
（明天接着看完：关注1.有没有与自己的方法相似的2.每种融合模式的问题在哪里，是否严重影响结果，解决方法是——论文中最优的方法是？）