新闻故事单元切割调研-day2

某些方法通过拼接连续的镜头获得完整的新闻故事单元。两个镜头是否属于同一新闻故事单元可以通过语义相关性来判断。一下论文是提取镜头中的多种音视觉信息和文本信息来评估镜头的相似性。
【1】T.-S. Chua, S.-F. Chang, L. Chaisorn, and W. Hsu, “Story boundary
detection in large broadcast news video archives: techniques, experience
and trends,” in Proceedings of the 12th annual ACM international
conference on Multimedia
[
broadcast news,boundary detection,story segmentation,news video]
【2】] W. Kraaij, A. F. Smeaton, and P. Over, “Trecvid 2004-an overview,”
【3】Y. Nakamura and T. Kanade, “Semantic analysis for video contents
extractionspotting by association in news video,” in Proceedings of the
fifth ACM international conference on Multimedia

论文【1】:
2004年之前已经出现的比较有效的方法是基于文本平铺方法,即连续的文本窗口内匹配两个文本的词汇(lexical)相似度,若两文本之间的最大词汇相似度小于阈值则判定为故事边界。许多工作是检测两文本语篇中的名词或语义实体的相关性。另一类技术是利用机器学习法HMM或者基于语篇(dicourse-based approach).总的来说,基于文本的方法准确度能达到60%,然而仅仅依靠文本定位故事边界的准确度是受限制的,因此利用多模态联合定位新闻故事单元边界。
day3 更新
【4】通过两层,多模态框架对新闻视频分割。多模态特征为视觉特征(如颜色),目标检测(人脸和视频文本),时间特征(音频,动作和镜头持续的时间),基于文本特征(如提示词)。他们通过两个层次来解决该问题:镜头层次和故事层次。首先将镜头进行语义分类,分类为 一个主持人镜头,两个主持人镜头,人镜头,采访镜头,运动镜头,金融,天气等。这些镜头分类中,以视觉为主的分类可以用特定的分类器,其他的类别可以用机器学习的方法,如决策树。
故事单元分割层次中,他们利用HMM(隐马尔科夫模型)来定位故事单元边界,该模型综合分析了镜头类别,镜头与提示词(cue-phase)当中的镜头变换。该方法结合音视觉,文本特征准确度达到0.77
【4】L. Chaisorn, T.-S Chua, C.-K Koh, Y.-L Zhao, H. Xu, H.
Feng & Q. Tian (2003). A two-level multi-modal approach for story segmentation of large news video corpus, Proceedings of TRECVID workshop 2003.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值