多麦克风做拾音的波束_搜狗推出 8 麦阵列的 AI 录音笔,拾音和转写能力大幅提升...

b36dc0c5c187f79ded30125a4e4432b6.png

录音、转写、翻译,不错的生产力工具!

- shenzhenware -

其实早在上世纪 90 年代,小型迷你录音笔就被发明出来了。在之后的 20 年里,录音笔的产品形态和基本功能基本上没有变化。虽然存储空间越来越大,录音的音质越来越好,但并没有本质的帮用户解决问题。 那么录音笔从本质上应该为用户解决哪些问题?作为一家 AI 公司,搜狗在一年前推出第一款录音笔 C1 的时候,就曾经思考过, 如何用「以语言为核心的 AI 能力」去驱动录音笔,让它能够为用户提供更好的使用体验。

这其中的思考方向有三:

  1. 更好的拾音能力,用人工智能的能力增强人声,这样听起来讲话的声音更清晰;
  2. 更准确的转写能力,能够把录下来的声音准确地转成文字,兼顾准确率和转写速度;
  3. 更高效的整理和使用这些录音和转写文字。
73c627a197fdbf360116974f9e9357c6.png

△ 搜狗 2019 年发布的录音笔 C1 Pro

在录音笔这个不算很大的垂直细分领域,不难看到一些被吐槽「录音效果甚至不如手机」的渣渣产品,不外乎几个原因: 硬件配置不够,录音和转写能力不够,整体使用体验不佳。 在经历了这些年在消费电子市场的摸索、以及在软硬件产品能力的积累和沉淀后,搜狗在 2020 年 2 月 26 日,通过线上发布会的方式,重磅推出了 S1、E1 两款旗舰级的 AI 录音笔新品,在去年发布的 C1 的基础上,进一步实现了产品功能的全面突破与升级。

0d74888e5882161d06f5e9277e54cb2c.png

△ 搜狗杨洪涛发布 S1、E1 两款 AI 录音笔 这两款产品是如何做到「 更好地拾音、更准确地转写、更高效地整理 」呢?我们从整个录音到整理的过程来看,搜狗是如何在这两款产品上「下血本」的。

8a42943ccc8255ef6c8208a0275e4a7a.png

8 麦克风阵列 + AI 降噪,大幅提升拾音能力

在录音的过程中,不管是使用录音笔、还是手机的录音软件,经常会遇到各种噪音干扰的情况,比如会场里窃窃私语的声音,比如会议室的空调声、敲键盘声、翻阅材料的声音,比如咖啡馆里的背景音乐、电话铃声和各种人来人往的杂音...... 如果录音的时候不加处理,就会导致录音者的人声不清晰,甚至被噪音覆盖掉。 搜狗 AI 录音笔首先从硬件的层面解决噪音的问题。 S1 配备了 2 颗哈曼 10mm 指向性麦克风 + 6 颗全向麦克风。 通常智能手机只有最多 2 个麦克风,而智能音箱也不过 4 个麦克风。 bd82e2a11ce6e6af83c2071905078859.png 在会议和采访模式下,将录音笔平放的时候,可以实现 360° 方向的声音收录,并对各个方向的声音进行平衡; 而在听课模式下,麦克风则指向正前方,通过波束采集较远处主讲人的声音。 413e15087e9b3ffd7c7cdae2774afe9d.png 在实现全向录音后,搜狗还利用了 AI 降噪技术,对麦克风的拾音信号进行三个层面的优化处理。 基于麦克风阵列算法,首先在空间层面,通过增强人声、去除背景音,优化 8 个麦克风的全向信噪比。 △ 现场演示 AI 降噪功能 而针对与人声同时被录入进来的极端噪声,则通过判断时域、频率的特征,进行去除。 此外,当遇到一些无法判断特征的不确定的噪音时,搜狗还能利用神经元和 AI 学习的方法,对噪声进行判断和区分。 89e3f5cc2b8320b3e981f9fcdfc1b06b.png 据搜狗介绍,在 S1 上采用的这个 PureVoice AI 深度降噪算法,能够过滤 4 万余种真实噪音。

d1f4b73e4e0abd7a3e1495e5a47d56b3.png

合并输入法词汇,支持多语言和方言,全面提升转写准确率

现如今,无论是媒体从业人员,还是各行各业常常开会和听讲的人,对于录音笔的需求已经不局限于 录音这一个功能上,录音后的文字转写功能,已经成为这些人的「刚需」。 搜狗 S1 在录音的同时,还可以实时转写文字,并同时显示在屏幕下方。而在录音完成后,将文件上传云端,还能完成通篇的转写。理论上, 1 小时的录音生成稿件可以在 5 分钟内完成转写,识别率达到 98%。

d9a519d0418651ad9bb1f910b19be5c8.png

如何通过技术手段来确保这一过程的高效呢? 在远场语音识别技术之上,S1 还利用了搜狗输入法背后的语音技术,当用户在录音笔上登录搜狗账号,就可以在服务器上合并个人的语汇,从而获得更符合个人需求和准确率更高的语音识别。

△ 现场演示上课场景的定向拾音 + 实时转写

搜狗输入法每天有接近 6 亿次的活跃用户,每天会产生 10 亿次的语音请求,这些数据可以对语音识别和转写进行支持,从而可以准确识别一些通常很生僻但已经在用户数据库里的词汇,比如通讯录里的人名,或者用户经常输入的专业词汇。 搜狗的 AI 录音笔还支持中英日韩德等 10 种语言、以及川粤津陕贵等 10 种方言的录音和转写。 除此之外,搜狗语音团队经过长时间训练创建的财经贸易、医疗卫生、IT 科技、政法、文化体育 5 个专业领域的语言模型,也应用到了此次的新品,从而提升了行业特有词汇的识别准确率。 71d41788d25447216c6c3449a0d10a83.png

△ 搜狗 AI 录音笔背后的技术

285b0d5b45bdebf15adce84413d24347.png

智能标注、智能摘要、语音查找,高效的文稿整理功能,外加同声传译

在实际的工作中,我们总能遇到录音时间过长、转写之后文字篇幅很大、录音文件较多的时候,查找起来费时费力。

3c0192dbe9a4d3a5ad4053f3d1378d86.png

△ 对转写的文稿进行智能标注

搜狗录音笔具备智能标注的能力。 当有多个人讲话的时候,录音笔可以辨别不同的讲话人,并进行标识; 甚至还能在有掌声、笑声的部分进行情绪标注; 并自动去除一些口头语、重复的词汇。按下 M 键 ,即可在转写生成的文稿里查看这些标注,一目了然。

△ 现场演示:多人会议场景时的实时转写+智能标注

基于 NLP 技术和关键词搜索技术,搜狗还推出了业内首创的智能摘要功能,可以自动提炼录音文稿的主题和关键语句,方便用户对转写内容进行整理。 此外,搜狗 AI 录音笔还支持用语音一句话查找录音内容。

fac09e749c8a3c23fd8dc407a5c9e8c0.png

△ 长按 M 键唤醒语音助手,可启用语音搜索

在云端存储技术的加持下,用户还能在录音笔、手机 App、网页、PC 客户端等多端自动同步和管理录音数据,并实现一键导出、扫码分享等便捷操作。 而在中英文的转写方面,搜狗 AI 录音笔还能实现个人同传功能,听英文报告的时候可以实时进行翻译。 73aedab0460360c316dec3bc7a901995.png

△ 实时中英互译,转写结果可以实时共享给其他人

S1 还支持全球 63 种语言的在线翻译,以及中、英、日、韩、法、俄等 9 种常用语言的离线翻译,同时还能实现自由对话翻译功能。

b4eace2811cdf10d009a402300c5c27c.png

价格和其他 续航方面,产品可满足待机 20 天、满电续航 10 小时。而 S1 还配备了内置的存储卡和 4G 卡槽,定价 2698 元。 同时发布的 E1 是 S1 的亲民版,定价 1298 元。E1 具备与 S1 相当的 AI 能力,只是屏幕要小一些,只支持 Wi-Fi 联网。

b03ab686a37ef7505a767ad921228b18.png

自去年搜狗发布 C1 之后,搜狗就将其 AI 服务向录音笔行业的合作伙伴开放,包括语音识别技术、搜狗输入法账号服务体系、个性化语言识别、多端同步的云端编辑能力、云存储服务能力等,并与索尼、万城集团、爱国者、纽曼等硬件设备制造商展开合作。 在主流电商平台上,自 2019 年 3 月搜狗产品发布以后,AI 录音笔的销量快速增长。 在今年一季度的录音笔市场,AI 录音笔已经占据了 1/3 左右的市场份额。 6460840d58b94215f2b772254fb38870.png 总的来说,S1 和 E1 无论是硬件配置还是 AI 技术的加持,都是 一款「上得了厅堂、下得了厨房」的好「伴侣」 ,可以极大的提升工作效率。而具体的录音和转写的一些细节体验方面,还真需要领回家慢慢感觉才好做判断 。 ■ 微信号:shenzhenware 主笔、编辑:大零 / 深圳湾 搜狗 @ 深圳湾

c005c84ce50511883d57e3d6efbd5e09.png

// 产品解读 //

  • 搜狗新一代录音笔 C1 Pro 开售,支持 WiFi 蓝牙双传输

  • 搜狗录音翻译笔:远场高清录音+实时速记,只有口红大小

  • 深度体验搜狗翻译宝:硬件规格颇具诚意,离线翻译+实景拍照翻译很实用

  • 这么多翻译机,搜狗家的翻译宝何以解决境外旅游的痛点

// 技术解读 //

  • 对话搜狗王小川:虚拟主播、智能硬件… AI 的下一个应用突破会在哪里
  • 搜狗吴滔:听觉+视觉才能组成一个完整的翻译机产品,离线翻译是搜狗的「独家秘籍」
  • 从「语音」到「语言」的工作重心转变,搜狗如何实现 AI 的跨越式发展

快到「湾」里来

深圳湾正在招聘:

真知灼见的科技记者

四通八达的运营编辑

才华横溢的市场策划

技能爆表的活动运营

热情四射的社区达人

简历传送门:

Lynn@shenzhenware.com

● ● ●

深圳湾(公众号 ID:shenzhenware)连接全球硬件创新者,连接硬件生态链上下游,连接跨界产品的设计、技术、生产、渠道、商业、创新。深圳湾持续关注「AI+硬件」带来的场景和交互创新,以及与平台和应用相连的全产业链升级,欢迎相关团队与我们联系,微信私人客服:小炫(ID:warexx)。

71790c2a59c5fe50ddf7b89cfbb268ae.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值