利用Azure实现智能视觉与多语言翻译应用
1. 智能视觉应用:Seeing AI
1.1 定制与云模型选择
Seeing AI应用面临着广泛的计算机视觉问题,因此采用了多种机器学习模型以适应不同场景,并做出不同的权衡。
- 本地模型运行 :在设备上本地运行机器学习模型能提供实时结果,理想情况下在100毫秒以内,最多不超过四分之一秒,这为用户带来了响应式的自然体验,便于文本朗读。例如,若想实时读取标志或标签,可使用手机上运行的模型。
- 云模型使用 :图像描述使用认知服务中的自定义视觉模型,这些模型无法压缩以在设备上运行,更不用说在Azure机器学习中训练的用于识别多种不同类型对象的数GB级模型。虽然往返云端需要更长时间,但能提供更高质量的结果。比如拍摄文档照片时,花些时间将其发送到Azure,利用云端运行的大型模型可获得更准确的结果。
决定在本地还是云端运行模型有不同方式。Seeing AI让用户选择不同场景,而在其他应用中,可根据互联网连接速度等因素决定,或采用混合方法。若用户带宽有限、连接缓慢或离线,可使用本地模型,甚至先使用小型本地模型给出结果,待云端返回更精确信息后再补充。同时,要确保用户界面清晰解释质量或细节水平变化的原因,避免用户困惑。此外,还需考虑隐私问题,Seeing AI发送到Azure的图像会安全存储并保护用户隐私,但数据会离开设备,在受监管行业可能需仅使用本地模型,若向云服务发送内容,需通知用户。
以下是本地与云模型选择的决策流程:
graph LR