通义听悟--一个懂你的AI助理
  • 通义听悟
  • 音频转文字
  • 本地音视频转文字
  • 云盘音视频转文字
  • 实时记录
  • 通义听悟进阶
  • 体验感受
  • 功能建议
  • 产品联动


通义听悟

在体验通义听悟之前,我们首先得知道什么是通义听悟?有什么应用场景?
通义听悟简单来说就是你的工作学习AI助理,通义听悟依托大模型,为每一个人提供全新的音视频体验。可以应用在会议、学习、访谈、培训等场景下实现会议实时语音转写、海量文件批量转写、中英互译实时翻译、快速标记高亮重点以及整理笔记导出记录等。可以说有了通义听悟,就等于有了一个AI助理,会议记录,学习记录等毫无违和感。下面来体验一下吧

音频转文字

打开通义听悟官网首页,首页地址:https://tingwu.aliyun.com/home

通义听悟--一个懂你的AI助理_音视频


我们先来体验一下【上传音视频】转文字的操作吧,首先我上传一段个人手机通话的录音文件

本地音视频转文字

点击【上传音视频】

通义听悟--一个懂你的AI助理_人工智能_02


这里我选择【上传本地音视频文件】

通义听悟--一个懂你的AI助理_音频转文字_03


这个通话录音是银行工作人员和我个人的通话,因此我选择【区分发言人】 【2认对话】,点击【开始转写】,首页右上角可以看到具体的操作进度

通义听悟--一个懂你的AI助理_音视频_04


等待转写完成之后点击左侧菜单【我的记录】找到最新转写的记录

通义听悟--一个懂你的AI助理_通义听悟_05


可以看到具体的转写内容

通义听悟--一个懂你的AI助理_人工智能_06


在动图中可以看到银行客服人员和我的详细对话,整个语音转写文字的过程执行很快,10s就结束了,无需等待时间,对于整体对话的转写准确度也有97%以上,只有部分地方名词的转写有所差别,这个对于不同人的不同口音版普通话,AI转写确实也会有不及的地方,个人认可本次语音转写文字的精确度。另外我们再来看一下这个地方

通义听悟--一个懂你的AI助理_音频_07


在通话录音转写成功之后,通义听悟会自动提炼本次语音转写内容关键词、全文概要、章节速览等,对于通义听悟自动提取的功能,精确度100%,关键词很准确,全文概要也完美总结了本次通话内容的核心,很不错的功能,可以说将近两分钟的通话内容,只需要2秒就可以通过全文概要完美提炼到通话要点,这样的AI助理真好,哈哈。

云盘音视频转文字

对于通义听悟【上传音视频】转文字功能除了可以上传本地音视频文件转文字以外,还可以通过绑定阿里云盘,直接选择阿里云盘中的音视频文件转文字,具体的操作大家有需要的可以直接参考官方文档操作即可,文档地址: 

实时记录

可以说通义听悟上传音视频转文字的功能很不错,那么更不错的功能还没体验呢,那就是【实时记录】功能,可以说不管大公司、小公司、国企、私企,日常的会议都是必不可少的,那么会议记录以及会议核心内容的提取往往都需要耗费会议记录人员(比如助理)很长的时间,并且还不一定是大家想要的内容,那么通义听悟的实时记录功能将一举拿下这个会议室的痛点。下面我们先来体验吧

点击【开启实时记录】

通义听悟--一个懂你的AI助理_音频转文字_08


这里由于我的是台式机,所以没有安装音频录入设备,不太方便体验,那么我想是否可以通过手机端尝试【开始实时记录】呢,打开手机浏览器登录账号密码,点击【实时记录】

通义听悟--一个懂你的AI助理_人工智能_09


可以看到实时记录功能手机浏览器无法打开,那本次实时记录的功能就下次再体验吧。不过根据对于音视频文件的文字转写结果来看,个人对于实时记录语音转写的精准度以及转写效率还是很有信心的。下面我们再来看看通义听悟对于转写内容的细节操作吧。

通义听悟进阶

上面我们看到上传音视频文件转文字的内容中有一点不准确的地方,通义听悟提供了一键替换功能,比如

通义听悟--一个懂你的AI助理_音频_10


比如点击【通义听悟实验室】开启【问题回顾】,那么通义听悟会自动把通话记录中关于问题的内容高亮展示,方便查找

通义听悟--一个懂你的AI助理_人工智能_11


比如开通【中英翻译】可以将通话记录中的中文翻译成英文

通义听悟--一个懂你的AI助理_音视频_12


最后可以将处理好的文本内容导出成自己需要的格式,这样整个内容整理的工作就大功告成了。

通义听悟--一个懂你的AI助理_音频_13


关于通义听悟当然远不止我体验的功能,还有很多有趣且实用的功能,感兴趣的可以自己探索或者去官方文档查阅哦,文档地址: 

体验感受

对于这次通义听悟的体验整体上很轻松没有很大压力,首先对于这么一款产品是比较感兴趣的,因为个人也是记录过会议记录的人,深知会议结束之后通过会议录音整理会议记录,提取会议核心内容的耗时和辛苦,所以对于这一款产品的体验就会很期待。整个通义听悟的首页设计很简单,功能点操作也很容易找到,如果真的遇到不明白的地方,官方文档也解释的很明白,并且官方文档的格式设计的也很有趣味,让人愿意去阅读,而不是说那种一堆文字堆积的文档,枯燥乏味。

功能建议

对于已经体验的功能,比如【上传音视频】转文字功能还是很满意的,文字识别很准确,很满足自己的期待。只是对于【实时记录】功能,由于本人没有笔记本,台式机又没有音频输入,手机端通义听悟又不支持,所以非常遗憾没有再好好体验感受一把,说到这里,希望通义听悟技术团队后期可以提供一下手机端的实时记录功能,比如开发钉钉小程序或者在现有的阿里云APP中增加通义听悟场景入口,毕竟手机是每个人都有的,那么开会时通过手机【实时记录】转写会议内容就会显得很便捷了,也就是说开会时只需要手机点击【实时记录】,开会结束后再到电脑端通义听悟页面找到已经转写完成的记录,人工核验一遍,只需几分钟就可以整理出一份会议记录、会议核心内容的文档,解决了过去几小时的工作量,真的是助理界的AI助理,期待ing…

产品联动

其实通过通义听悟的适用场景会议、学习、访谈、培训等不难找到通义听悟的联动产品,比如作为教育培训行业,有的课程内容可能只有视频而由于人力成本的问题没有为视频适配文字字幕,那么这个时候通义听悟就可以一键接入实现视频转文字,方便广大学员提高学习效率,同时也节约了企业为视频添加字幕而进行的人力成本投入。当然,访谈节目字幕也是同样的道理。另外对于CRM产品,日常客服通话语音的管理,以及通话检测的人工投入是否也可以接入通义听悟实现通话语音的实时记录转写,方便CRM管理人员及时发现客服问题,为公司挽回损失呢。总之可以联动的产品还有很多,大家一起去发掘吧。最后给通义听悟团队一个赞,产品不错,转写效果很棒!