让开发人员训练自家Entity辨识模型 AWS推出语音转文字新系统

最新推荐文章于 2025-03-11 09:15:36 发布

chexiu2195

最新推荐文章于 2025-03-11 09:15:36 发布

阅读量209

点赞数

文章标签：人工智能

原文链接：https://my.oschina.net/u/3906919/blog/2885665

版权

AWS日前才更新了自然语言理解服务Comprehend，推出客制Entity辨识模型的功能，让不懂机器学习的开发人员，也能训练自家的Entity辨识模型，来自动萃取特定的字词。该公司的自动语音识别服务Transcribe近日也有新功能，推出实时语音转文字Streaming Transcription，Transcribe能够让开发者，将语音转文字的功能新增到自家的应用中，而最新推出的Streaming Transcription则更进一步，让用户上传一段语音到服务中，就能回传实时辨识的文字稿。

自动语音识别服务Transcribe于去年11月AWS re:Invent大会上第一次亮相，并于今年4月与实时翻译服务Translate一起公开发布，该服务能将语音转换成文字，同时能够让开发人员将该功能加入自家的应用中，目前支持16 kHz和8 kHz语音串流，和多种语音格式，像是WAV、MP3、MP4和Flac，也能够用来分析存放在S3的语音档案内容，或是分析客户的通话数据、自动建立字幕、根据内容执行目标式广告，也能搜寻语音或影片内容，支持美式英语、英式英语、西班牙语、澳洲英语和加拿大法语。

AWS认为，实时语音转文字的服务，对于不同的产业都很有帮助，包含客服中心、媒体、娱乐产业、金融和保险业，甚至是法庭的记录，都能够提供辅助，举例来说，客服中心可以实时侦测与抄写文字的关键词，根据关键词触发下一个工作流程，媒体业则可以在新闻播报时，实时自动上字幕，电玩商也能透过这项功能，提供听力受损的玩家辅助服务，而在法庭上，该功能则可以速记法庭上的对话内容，同样地，一般的企业也可以用来记录会议信息。

Streaming Transcription利用了HTTP/2执行双向流技术，来处理使用者应用端和AWS服务端之间的语音串流和文字记录，双向流可以让应用端同时发送和接收数据，因此，能够更快速地得到结果。

为了展示如何使用AWS ADK将Streaming Transcription加入自家的应用中，AWS创立了一个范例并公开在GitHub上，用户透过麦克风或是上传语音文件，传输到AWS的语音转文字服务中，就能实时获得文字记录。
文章转自：SBF胜博发预测站

转载于:https://my.oschina.net/u/3906919/blog/2885665