鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI
又一个接入大模型能力的组会神器实用工具,开启免费公测啦!
背后大模型,是阿里的通义千问。至于为什么说是组会神器嘛——
注意看,这是我的B站导师李沐老师,他正在带同学们精读一篇大模型论文。
不巧就在这时,老板催我抓紧搬砖。我只好默默摘下耳机,点开名为“通义听悟”的插件,然后切换页面。
你猜怎么着?虽然我人不在“组会”现场,但听悟已经帮我完整记录下了组会内容。
甚至还帮我一键总结出了关键词、全文摘要和学习要点。
简单来说,这个刚刚接入大模型能力的“通义听悟”,是一个大模型版的聚焦音视频内容的工作学习AI助手。
跟以往的录音转写工具不同,它不只是能把录音、视频转成文字这么简单。能一键总结全文不说,总结不同发言人观点也能做到:
甚至还能当实时字幕翻译来用:
看上去,不仅开组会好使,对于经常要处理一大堆录音、熬夜跟各种国外发布会的量子位来说,也实属日常工作新神器。
我们赶紧第一时间深入测试了一波。
通义听悟上手实测
音频内容的整理和分析,最基础也是最重要的,就是转写的准确性。
Round 1,我们先上传一个时长在10分钟左右的中文视频,看看听悟与同类工具相比,在准确性方面表现如何。
基本上,AI处理这种中等长度音视频的速度很快,大概不到2分钟就能转写完成。
先来看看听悟的表现:
在这个200字左右的段落中,听悟只出现了两处错误:强 → 墙,都好处 → 恰到好处。像原子核、电荷、斥力这些物理名词,听悟都能弄明白。
我们用同一段视频在飞书妙记上也进行了测试。基本问题也不大,但相比听悟,飞书多了两处错误,把其中一处“原子”写成了“园子”,把“斥力”听成了“势力”。