新闻故事单元切割调研-day2

最新推荐文章于 2025-04-28 12:34:32 发布

福min

最新推荐文章于 2025-04-28 12:34:32 发布

阅读量220

点赞数

分类专栏：新闻故事分割

本文链接：https://blog.csdn.net/nana13628679472/article/details/83573831

版权

新闻故事分割专栏收录该内容

1 篇文章

订阅专栏

本文探讨了新闻视频中故事单元分割的多种方法，包括基于文本的边界检测、多模态特征融合及HMM模型应用，旨在提高新闻视频理解与检索效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

某些方法通过拼接连续的镜头获得完整的新闻故事单元。两个镜头是否属于同一新闻故事单元可以通过语义相关性来判断。一下论文是提取镜头中的多种音视觉信息和文本信息来评估镜头的相似性。
【1】T.-S. Chua, S.-F. Chang, L. Chaisorn, and W. Hsu, “Story boundary
detection in large broadcast news video archives: techniques, experience
and trends,” in Proceedings of the 12th annual ACM international
conference on Multimedia[
broadcast news，boundary detection，story segmentation，news video]
【2】] W. Kraaij, A. F. Smeaton, and P. Over, “Trecvid 2004-an overview,”
【3】Y. Nakamura and T. Kanade, “Semantic analysis for video contents
extractionspotting by association in news video,” in Proceedings of the
fifth ACM international conference on Multimedia

论文【1】：
2004年之前已经出现的比较有效的方法是基于文本平铺方法，即连续的文本窗口内匹配两个文本的词汇（lexical）相似度，若两文本之间的最大词汇相似度小于阈值则判定为故事边界。许多工作是检测两文本语篇中的名词或语义实体的相关性。另一类技术是利用机器学习法HMM或者基于语篇（dicourse-based approach）.总的来说，基于文本的方法准确度能达到60%，然而仅仅依靠文本定位故事边界的准确度是受限制的，因此利用多模态联合定位新闻故事单元边界。
day3 更新
【4】通过两层，多模态框架对新闻视频分割。多模态特征为视觉特征（如颜色），目标检测（人脸和视频文本），时间特征（音频，动作和镜头持续的时间），基于文本特征(如提示词)。他们通过两个层次来解决该问题：镜头层次和故事层次。首先将镜头进行语义分类，分类为一个主持人镜头，两个主持人镜头，人镜头，采访镜头，运动镜头，金融，天气等。这些镜头分类中，以视觉为主的分类可以用特定的分类器，其他的类别可以用机器学习的方法，如决策树。
故事单元分割层次中，他们利用HMM（隐马尔科夫模型）来定位故事单元边界，该模型综合分析了镜头类别，镜头与提示词（cue-phase）当中的镜头变换。该方法结合音视觉，文本特征准确度达到0.77
【4】L. Chaisorn, T.-S Chua, C.-K Koh, Y.-L Zhao, H. Xu, H.
Feng & Q. Tian (2003). A two-level multi-modal approach for story segmentation of large news video corpus, Proceedings of TRECVID workshop 2003.