短视频时代,字幕是内容传播的助推器。无论是在嘈杂的环境中观看,还是为了更好地理解外语内容,字幕都扮演着至关重要的角色。然而,传统的视频字幕提取方式常常面临诸多挑战:ASR(自动语音识别)受限于音频质量、口音、背景音乐以及多音字等因素,容易出错;人工校对则耗时费力。且受限于OCR本身的能力和成本,市场上的诸多厂商主要集中在中英文的字幕提取,已无法满足日益增长的市场需求。提取的准确率也在严重影响校对的效率和翻译的质量。为了彻底解决这些痛点,鬼手剪辑持续进行技术突破,全新升级OCR字幕提取功能。此次升级,鬼手剪辑不仅在OCR字幕提取支持了全球最多的语种数量,更通过多项AI技术的深度融合,将准确率大幅提高,校对效率提升了50%,堪称视频字幕提取神器
OCR字幕提取的难点在哪?
ASR(自动语音识别)依赖音频进行文字转换,受环境噪音、口音、背景音乐、多音字等因素影响较大,准确率波动明显,对于没有语音介绍的视频和场景则完全不适用。一些影视综艺节目等干扰较强的视频,ASR提取准确性非常差,导致校对成本居高不下。 OCR(光学字符识别)直接识别视频画面中的文字图像,不受音频影响,即使视频无声或背景嘈杂也能准确提取字幕。OCR提取虽然理论上准确性更高,但也有很多弊端限制了其广泛应用:
-
大部分的OCR供应商主要支持中英文,小语种识别质量较低;
-
由于OCR的技术需要对视频截帧后逐帧识别,OCR识别的成本较高;
-
且OCR识别会受到视频内场景文字的干扰,比如说经常把路牌、衣服上logo、书本上的文字认为是正常的字幕。造成后续使用的麻烦。
ASR语音提取字幕 vs. 鬼手OCR字幕提取
ASR提取 | 鬼手OCR提取 | |
错字 | 很多 | 少 |
漏字 | 多 | 少 |
漏行 | 多 | 少 |
重复行 | 少 | 少 |
场景文字干扰 | - | 极少 |
其他背景音干扰 | 多 | - |
鬼手剪辑OCR字幕提取全新升级:支持超多语种 、更高准确率、没有场景文字干扰
鬼手剪辑的OCR字幕提取功能,通过多项前沿AI技术的应用,完美解决了传统字幕提取的痛点:
-
图像预处理:采用先进的图像处理技术,对视频画面进行降噪、增强、锐化等处理,显著提高图像质量,为后续OCR识别奠定基础。
-
基于深度学习的超分辨率技术:有效提升模糊视频的清晰度,即使是低分辨率的视频也能清晰识别,大幅提高OCR识别的准确率。
-
图像分割技术:精准定位字幕区域,有效避免背景、水印、台标等干扰,只提取真正需要的字幕内容。
-
字体样式识别技术:更好地处理各种复杂字体和排版,即使是艺术字或特殊排版也能准确识别。
-
Google和GPT大模型校准:创新性地引入Google和GPT大模型进行二次校准,自动修正部分错别字和语法错误,进一步提升准确率,大幅降低人工校对时间。
支持30多种语种识别,打破语言壁垒
鬼手剪辑致力于推动全球内容无障碍流通,目前已支持全球30多种语言,涵盖了众多主流和小众语言,包括但不限于:中文、英文、日语、韩语、法语、德语、西班牙语、葡萄牙语、俄语、阿拉伯语、、印尼语等,我们还将不断扩展支持的语种范围,满足更多用户的需求。以下是多个语种字幕OCR识别的案例:
中文字幕OCR识别案例
中文原文:“公司为什么让我一个销售来”
英语字幕OCR识别案例
英语原文:“Mr. Vanderbilt's personal property” 中文译文:“范德比尔特先生的个人财产”
俄语字幕OCR识别案例
俄语原文:“обеспечивая стабильную Электроэнергию по” 中文译文:“通过以下措施确保稳定的电力供应”
法语字幕OCR识别案例
法语原文: “Cet ensemble de 10 pinceaux contient tous les pinceaux pour les yeux dont vous aurez jamais besoin pour créer un look pour les yeux” 中文翻译: “这套10支眼影刷包含了您打造任何眼妆所需要的所有刷具。”
日语字幕OCR识别案例
日语原文:“えーと、小さい箱(はこ)にお菓子(かし)とか、” 中文翻译:“嗯,就是说,在小盒子里放些零食什么的...”
西班牙语字幕OCR识别案例
西班牙语原文:“pero también a nivel de la coronilla y afecta también a un 50% de las mujeres” 中文翻译:“但也会出现在头顶,50% 的女性也会受到影响。”
印尼语字幕OCR识别案例
印尼语原文:“Ingat, ini hanyalah sebuah pra pencucian untuk menghilangkan sebagian besar kotoran sebelum pencucian kontak” 中文翻译:“请记住,这只是预洗,目的是在接触式清洗前去除大部分污垢。”
准确性大幅提高,校对效率提升100%+
为了更直观地展示鬼手剪辑OCR字幕提取的卓越性能,我们进行了多项对比测试,涵盖不同类型的视频内容,以200集不同风格的短剧-中文/英文字幕提取为例,漏字、漏行、重复行、场景文字等错误识别比例已大幅降低。
-
某大厂OCR字幕提取准确率:96.5%
-
鬼手剪辑OCR字幕提取准确率:98.7%
鬼手剪辑的识别准确率继续领先,相比某大厂OCR提升了2.2个百分点。这2.2个百分点的提升,意味着校对效率提升了100%!辅以大模型的自动校对,一次性就能得到完美准确字幕的比例也大幅提升。
鬼手OCR字幕提取 | 其他厂商OCR字幕提取 | |
错字 | 少 | 一般 |
漏字 | 少 | 一般 |
漏行 | 几乎没有 | 一般 |
重复行 | 几乎没有 | 一般 |
场景文字误识别 | 极少 | 一般 |
精准避开场景文字,减少误识别
得益于我们把多种AI技术的综合应用,鬼手剪辑的OCR字幕提取能够有效地处理各种复杂的视频场景,最大限度地减少场景文字的误识别。这意味着,即使视频背景复杂、字幕字体特殊、或有各种干扰元素,鬼手剪辑也能准确地提取出字幕内容,大大提高了字幕提取的效率和准确性。
商品上的文字不会被错误识别
剧情提示文字不会被误识别
横幅、门牌上的文字不会被误识别
OCR字幕提取适合那些场景?
适合绝大部分有字幕的短视频,尤其适合
-
适合视频声音波动较大、背景音、音效较为明显的视频,如短剧、电视剧、综艺节目等;
-
适合没有语音介绍的视频,如课程、纯音乐的视频等。
鬼手剪辑,致力于用AI加速全球的内容流动。
在信息爆炸的时代,高效的内容传播至关重要。鬼手剪辑始终致力于通过技术创新,打破语言壁垒,加速全球内容的自由流动。此次OCR字幕提取功能的全面升级,正是我们不懈努力的又一力证。我们深信,AI的力量能够连接世界,拉近人与人之间的距离。鬼手剪辑将持续探索AI技术在内容流动领域的无限可能,为用户带来更智能、更便捷的视频处理体验。