录音、转写、翻译,不错的生产力工具!
- shenzhenware -
其实早在上世纪 90 年代,小型迷你录音笔就被发明出来了。在之后的 20 年里,录音笔的产品形态和基本功能基本上没有变化。虽然存储空间越来越大,录音的音质越来越好,但并没有本质的帮用户解决问题。 那么录音笔从本质上应该为用户解决哪些问题?作为一家 AI 公司,搜狗在一年前推出第一款录音笔 C1 的时候,就曾经思考过, 如何用「以语言为核心的 AI 能力」去驱动录音笔,让它能够为用户提供更好的使用体验。这其中的思考方向有三:
- 更好的拾音能力,用人工智能的能力增强人声,这样听起来讲话的声音更清晰;
- 更准确的转写能力,能够把录下来的声音准确地转成文字,兼顾准确率和转写速度;
- 更高效的整理和使用这些录音和转写文字。
![73c627a197fdbf360116974f9e9357c6.png](https://img-blog.csdnimg.cn/img_convert/73c627a197fdbf360116974f9e9357c6.png)
△ 搜狗 2019 年发布的录音笔 C1 Pro
在录音笔这个不算很大的垂直细分领域,不难看到一些被吐槽「录音效果甚至不如手机」的渣渣产品,不外乎几个原因: 硬件配置不够,录音和转写能力不够,整体使用体验不佳。 在经历了这些年在消费电子市场的摸索、以及在软硬件产品能力的积累和沉淀后,搜狗在 2020 年 2 月 26 日,通过线上发布会的方式,重磅推出了 S1、E1 两款旗舰级的 AI 录音笔新品,在去年发布的 C1 的基础上,进一步实现了产品功能的全面突破与升级。8 麦克风阵列 + AI 降噪,大幅提升拾音能力
在录音的过程中,不管是使用录音笔、还是手机的录音软件,经常会遇到各种噪音干扰的情况,比如会场里窃窃私语的声音,比如会议室的空调声、敲键盘声、翻阅材料的声音,比如咖啡馆里的背景音乐、电话铃声和各种人来人往的杂音...... 如果录音的时候不加处理,就会导致录音者的人声不清晰,甚至被噪音覆盖掉。 搜狗 AI 录音笔首先从硬件的层面解决噪音的问题。 S1 配备了 2 颗哈曼 10mm 指向性麦克风 + 6 颗全向麦克风。 通常智能手机只有最多 2 个麦克风,而智能音箱也不过 4 个麦克风。![bd82e2a11ce6e6af83c2071905078859.png](https://img-blog.csdnimg.cn/img_convert/bd82e2a11ce6e6af83c2071905078859.png)
![413e15087e9b3ffd7c7cdae2774afe9d.png](https://img-blog.csdnimg.cn/img_convert/413e15087e9b3ffd7c7cdae2774afe9d.png)
![89e3f5cc2b8320b3e981f9fcdfc1b06b.png](https://img-blog.csdnimg.cn/img_convert/89e3f5cc2b8320b3e981f9fcdfc1b06b.png)
合并输入法词汇,支持多语言和方言,全面提升转写准确率
现如今,无论是媒体从业人员,还是各行各业常常开会和听讲的人,对于录音笔的需求已经不局限于 录音这一个功能上,录音后的文字转写功能,已经成为这些人的「刚需」。 搜狗 S1 在录音的同时,还可以实时转写文字,并同时显示在屏幕下方。而在录音完成后,将文件上传云端,还能完成通篇的转写。理论上, 1 小时的录音生成稿件可以在 5 分钟内完成转写,识别率达到 98%。△ 现场演示上课场景的定向拾音 + 实时转写
搜狗输入法每天有接近 6 亿次的活跃用户,每天会产生 10 亿次的语音请求,这些数据可以对语音识别和转写进行支持,从而可以准确识别一些通常很生僻但已经在用户数据库里的词汇,比如通讯录里的人名,或者用户经常输入的专业词汇。 搜狗的 AI 录音笔还支持中英日韩德等 10 种语言、以及川粤津陕贵等 10 种方言的录音和转写。 除此之外,搜狗语音团队经过长时间训练创建的财经贸易、医疗卫生、IT 科技、政法、文化体育 5 个专业领域的语言模型,也应用到了此次的新品,从而提升了行业特有词汇的识别准确率。![71d41788d25447216c6c3449a0d10a83.png](https://img-blog.csdnimg.cn/img_convert/71d41788d25447216c6c3449a0d10a83.png)
△ 搜狗 AI 录音笔背后的技术
智能标注、智能摘要、语音查找,高效的文稿整理功能,外加同声传译
在实际的工作中,我们总能遇到录音时间过长、转写之后文字篇幅很大、录音文件较多的时候,查找起来费时费力。△ 对转写的文稿进行智能标注
搜狗录音笔具备智能标注的能力。 当有多个人讲话的时候,录音笔可以辨别不同的讲话人,并进行标识; 甚至还能在有掌声、笑声的部分进行情绪标注; 并自动去除一些口头语、重复的词汇。按下 M 键 ,即可在转写生成的文稿里查看这些标注,一目了然。△ 现场演示:多人会议场景时的实时转写+智能标注
基于 NLP 技术和关键词搜索技术,搜狗还推出了业内首创的智能摘要功能,可以自动提炼录音文稿的主题和关键语句,方便用户对转写内容进行整理。 此外,搜狗 AI 录音笔还支持用语音一句话查找录音内容。△ 长按 M 键唤醒语音助手,可启用语音搜索
在云端存储技术的加持下,用户还能在录音笔、手机 App、网页、PC 客户端等多端自动同步和管理录音数据,并实现一键导出、扫码分享等便捷操作。 而在中英文的转写方面,搜狗 AI 录音笔还能实现个人同传功能,听英文报告的时候可以实时进行翻译。![73aedab0460360c316dec3bc7a901995.png](https://img-blog.csdnimg.cn/img_convert/73aedab0460360c316dec3bc7a901995.png)
△ 实时中英互译,转写结果可以实时共享给其他人
S1 还支持全球 63 种语言的在线翻译,以及中、英、日、韩、法、俄等 9 种常用语言的离线翻译,同时还能实现自由对话翻译功能。![6460840d58b94215f2b772254fb38870.png](https://img-blog.csdnimg.cn/img_convert/6460840d58b94215f2b772254fb38870.png)
// 产品解读 //
搜狗新一代录音笔 C1 Pro 开售,支持 WiFi 蓝牙双传输
搜狗录音翻译笔:远场高清录音+实时速记,只有口红大小
深度体验搜狗翻译宝:硬件规格颇具诚意,离线翻译+实景拍照翻译很实用
这么多翻译机,搜狗家的翻译宝何以解决境外旅游的痛点
// 技术解读 //
- 对话搜狗王小川:虚拟主播、智能硬件… AI 的下一个应用突破会在哪里
- 搜狗吴滔:听觉+视觉才能组成一个完整的翻译机产品,离线翻译是搜狗的「独家秘籍」
- 从「语音」到「语言」的工作重心转变,搜狗如何实现 AI 的跨越式发展
快到「湾」里来
深圳湾正在招聘:
真知灼见的科技记者
四通八达的运营编辑
才华横溢的市场策划
技能爆表的活动运营
热情四射的社区达人
简历传送门:
Lynn@shenzhenware.com
● ● ●
深圳湾(公众号 ID:shenzhenware)连接全球硬件创新者,连接硬件生态链上下游,连接跨界产品的设计、技术、生产、渠道、商业、创新。深圳湾持续关注「AI+硬件」带来的场景和交互创新,以及与平台和应用相连的全产业链升级,欢迎相关团队与我们联系,微信私人客服:小炫(ID:warexx)。