人工智能的发展下,总是能与我们的生活完美结合衍生出这样那样的黑科技产品没有做不到只有你想不到,广告更是贴出了产品推出后群众反响热烈的回应图片。除了常规录音笔的高清录音,这条广告还支持录音转文字、同声传译、云端储存等更具实用性的功能。
语音交互是AI最重要的领域之一,其衍生产品相对来说也较为成熟,比如说智能客服、智能音箱、聊天机器人等,日常都已经出现在了我们的生活中。
试想一下,原本100来字的语音,边听打字需要一两分钟,但是AI录音笔可以作业类似同声传译的工作内容,只需要短短几秒钟便可翻译出文字,足以见得效率二字。
上班族用它记录会会议纪要、新闻工作者用它速记采访内容、学生用它记录课堂内容,这一切都要归功于人工智能给我们带来的便利。
来说一下其中原理。所谓语音转换成文字用到了语音交互中一项ASR技术,类似于人类耳朵的功能。
1、首先需要建立声学模型。由于每个人发音、语调、语速等各不相同,需要将同一个单词或汉字让不同用户录取,以便机器识别更多的人。声学模型建立过程需要录入大量的原始用户声音,以从中提取特征建立声学模型数据库。这是至关重要的一步。
2、建立语言模型。同声学模型,也需要大量文字信息的储存。语言模型可以对声学模型进行匹配与调整,让正确率尽可能提高,语句更加通顺,具体内容是第三步。
3、语音识别。有前两步作为基础的情况下,最终形成的数据库存储在设备本地或云端,再进行实时语音识别。
首先,将用户的语音输入进行编码和特征提取,将提取到的特征拿到声学模型库中去查询,得到单个的单词或汉字;然后再拿到语言模型库中去查询,得到最匹配的单词或汉字。
目前来说,语音交互领域下的产品都较为成熟,再一次感慨人工智能给我们生活带来的便捷!