论文阅读: A Bilingual, OpenWorld Video Text Dataset and End-to-end Video Text Spotter with Transformer

本文介绍了快手科技、浙江大学与北京邮电大学合作发布的BOVText数据集,这是一个大规模双语开放场景的视频文本基准,支持视频帧检测、识别、跟踪和端到端识别任务。此外,还提到了基于Transformer的TransVTSpotter识别框架。尽管视频OCR的应用场景仍在探索中,但可以用于视频理解、字幕翻译和视频检索。作者开源了相关代码,并提出了通过轻量模型提高速度的可能性。同时,作者还分享了自己的RapidVideOCR项目,提供更快、更准确的视频内嵌字幕提取。

引言
  • 由于缺乏大规模高质量的数据集,视频中的文字识别的研究与发展几乎处于停滞状态。
  • 来自于快手科技、浙江大学与北京邮电大学的合作的论文,弥补了该领域的空白。
  • 该论文的工作主要由两方面组成,一是提出了BOVText数据集,一个是提出了基于Transformer的端到端识别框架。
BOVText数据集
  • 文中提出了一个大规模双语开放场景下的视频文本基准数据集(Bilingual Open World Video text benchmark dataset)。
  • 该数据集主要提供了2000+视频,1,750,000帧开放视频场景的视频。同时,还提供了丰富的标注类型(标题、字幕、场景文本等)。
  • 该数据集支持四个任务:视频帧检测、视频帧识别、视频文本跟踪和端到端视频文本识别。
  • 这里给出一个视频截图,更多的请移步BOVText-Benchmark
    dataset demo
  • 值得一提的是,该数据集并未直接公布下载链接,而是需要填写相关申请表,表明其用途才能下载,详情参见:BOVText-Benchmark
TransVTSpotter
  • 整体结构图:
    TransVTSpotter
  • 首先感谢作者开源相关代码。当自己尝试只想着只跑通推理代码,但是无奈项目中并没有相关的说明。没得办法,只能自己尝试阅读源码,看是否可以抽出仅含有推理的代码,以便整合到其他项目中使用。
  • 项目代码学习
思考

Q1: 视频OCR的意义何在?

  • 这个问题,自己也一直在找寻。从论文中,作者给出了一些相关应用,有结合视频中文本的视频理解(Video Understanding)、视频中字幕自动翻译(Video Caption Automatic Translation)和基于文本内容的视频检索(Video Retrieval)
  • 同时,我也从ICDAR的Text in Videos任务中去探寻,在任务概述中只说明了视频OCR任务是一件比较困难的事情,因为存在某些帧较为模糊的情况。如果单纯地将该任务视为图像的OCR,这样并没有充分利用到视频中连续帧之间的关系。通篇来看,整个任务概述并没有说明该任务有哪些切实的需求存在。
  • 我猜测,这个未来会作为一个视频内容理解的辅助手段,但不是核心的,真正核心还是多模态下的各种细分任务所涉及到的相关技术。

Q2: 视频OCR与关键信息提取结合

  • 关键信息提取指的是从所给图像中提取出{key:value}格式数据。举个例子来说,就像给一张带有身份证的图像,经过关键信息提取模型之后,可以知道OCR识别出的内容哪个是key(姓名、性别等),哪个是value(王小明、男)。在视频场景下,可以快速提取视频中出现图像的keyvalue。但是好像也没啥用,哈哈哈😂

Q3: 如何提速与落地

  • 提速:论文中,采用的Backbone是ResNet50,整体模型较大,可以考虑换为轻量小模型来做尝试。
  • 落地:因为视频OCR任务目前并没有显示存在的需求,所以涉及到落地场景,仍在探索当中。

Q4: 目前已有视频OCR开源项目有哪些?

  • 在这里,简单介绍一下自己开源的RapidVideOCR项目。
  • 相比于之前的VideoOCR,该项目更快、更准。目前支持中英文内嵌字幕的自动提取,且输出格式支持srt|txt|docx三种。
  • 详细参见:RapidVideOCR
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值