视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩,老罗:打钱

杨净 发自 凹非寺
量子位 | 公众号 QbitAI

现在剪视频,已经可以精准到每一个字了!

a816df96db8b7ce9cc8bf838504f6dd0.gif

只需点击你要删减或者要留下的单词,AI分分钟都能给你整出新的视频来。

这操作,有点大爆炸功能内味了。老罗:打钱!

5296f25a48d4e62759ef4056e907984b.gif

不管是MV、访谈、电影片段各种类型视频,也不论有无字幕,通通不在话下。

网友们纷纷开始试玩了起来。比如让rick roll鬼畜起来~

82d3614f7b34b0c733303245d1d32dc1.gif

b8a179bbda3d25be0e04c1d0c8e590f4.png

就连中文视频也能Hold住。实测Demo发现,它甚至直接翻译成了英文。

不过这也并不影响整个操作,毕竟背后模型是支持中文在内的多个语言的。

a463db8f6e6b8649968247769e087b1b.png

精准到每个字剪视频

只需三步,就可以轻松完成精准到字的视频剪辑——

上传视频、选择删减/留下的单词、下载视频。

ae6ef599140712bbece58241e4c97bd4.png

释出的有三个示例,烹饪的美食视频、小扎采访、以及「Just Do IT」……

c96870ebf013d7ac4842c76efa323faa.png

当然你也可以自己试玩,各种语言都能识别。比如就以让子弹飞一段经典对白为例。

ebefc2798538ef3b9f9668961dfff9ed.png

绿色代表保留,红色代表删除。你有三种选择:剪辑、选择所有单词、重新设置。

任意选择保留单词之后,就可以「Cut Video」了。此处选择两处跳脱的台词。最终只花了不到十秒钟就完成了剪辑。

a079c74deecbfbc43ed598c754df2ee7.gif

画面切换可以说是十分顺滑了~整个Demo试玩在T4上运行。

基于Whisper模型

这是个荷兰开发者Matthijs Hollemans在HuggingFace上基于Whisper开发的新功能。

b73e560d8fbffc1d00e71e9e7ce8b256.png

Whisper是OpenAI于去年9月开源的语音识别神经网络,经过68万小时的多语言和多任务监督网络数据的训练,其鲁棒性和准确性接近人类水平。它可以进行多语言转录,以及其他语言将翻译成英文。

08d898f51a5afe619ef4b4480effeb11.png

它是基于Transformer端到端实现架构,无需任何微调。输入音频被分成30秒的块,转化为梅尔倒谱(音频特征提取方式之一,log-Mel spectrogram),然后传入编码器。

7b5b4805b2b3031922b1ea0c75f19096.png

好了,试玩Demo在此,感兴趣的旁友可戳:
https://huggingface.co/spaces/radames/whisper-word-level-trim
参考链接:
[1]https://openai.com/research/whisper
[2]https://twitter.com/mhollemans/status/1671812176842039296

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

ab83293d7ec29a44c2770bbb31c92279.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值