AWS日前才更新了自然语言理解服务Comprehend,推出客制Entity辨识模型的功能,让不懂机器学习的开发人员,也能训练自家的Entity辨识模型,来自动萃取特定的字词。该公司的自动语音识别服务Transcribe近日也有新功能,推出实时语音转文字Streaming Transcription,Transcribe能够让开发者,将语音转文字的功能新增到自家的应用中,而最新推出的Streaming Transcription则更进一步,让用户上传一段语音到服务中,就能回传实时辨识的文字稿。
自动语音识别服务Transcribe于去年11月AWS re:Invent大会上第一次亮相,并于今年4月与实时翻译服务Translate一起公开发布,该服务能将语音转换成文字,同时能够让开发人员将该功能加入自家的应用中,目前支持16 kHz和8 kHz语音串流,和多种语音格式,像是WAV、MP3、MP4和Flac,也能够用来分析存放在S3的语音档案内容,或是分析客户的通话数据、自动建立字幕、根据内容执行目标式广告,也能搜寻语音或影片内容,支持美式英语、英式英语、西班牙语、澳洲英语和加拿大法语。
AWS认为,实时语音转文字的服务,对于不同的产业都很有帮助,包含客服中心、媒体、娱乐产业、金融和保险业,甚至是法庭的记录,都能够提供辅助,举例来说,客服中心可以实时侦测与抄写文字的关键词,根据关键词触发下一个工作流程,媒体业则可以在新闻播报时,实时自动上字幕,电玩商也能透过这项功能,提供听力受损的玩家辅助服务,而在法庭上,该功能则可以速记法庭上的对话内容,同样地,一般的企业也可以用来记录会议信息。
Streaming Transcription利用了HTTP/2执行双向流技术,来处理使用者应用端和AWS服务端之间的语音串流和文字记录,双向流可以让应用端同时发送和接收数据,因此,能够更快速地得到结果。
为了展示如何使用AWS ADK将Streaming Transcription加入自家的应用中,AWS创立了一个范例并公开在GitHub上,用户透过麦克风或是上传语音文件,传输到AWS的语音转文字服务中,就能实时获得文字记录。
文章转自:SBF胜博发预测站