简介
近些年来由于云平台、大数据、高性能计算、机器学习等领域的进步,人工智能也火了起来。人脸识别、语音识别等相关功能早已被提出,但是能够形成产品并大规模使用的很少。因为非专业人员很难独自实现一套完整人工智能方案,涉及人工智能基本只能去找开源的库,毕竟所以自己去训练网络,自己去学习各种库的使用并移植到自己的程序中。
在实现一些产品上,使用人工智能比开发人工智能其实更重要,所以微软提出了“牛津计划”(Oxford Project),目的在于让需要使用人工智能去做一些功能的开发者能够将重心放在如何使用例如人脸识别、语音识别等功能的业务逻辑上,而非如何去实现人脸识别、语音识别等算法细节上。通过其Azure云平台提供服务,并且目前对于少量请求的应用是免费的。
上述内容,就是牛津计划的目的,让开发者将重心放在产品本身而非技术细节。并且微软通过“牛津计划”提供了专业水准的平台服务。
牛津计划(Oxford Project)功能
微软牛津计划主要提供了三种人工智能的领域方向的解决方案,分别是“视觉”、“语音”和“语言”。
下面链接是牛津计划(Oxford Project)的主页:
微软在牛津计划中,分别提供了“视觉”、“语音”以及“语言”共10个方向的主流的人工智能服务共使用。目前对于流量较少的情况免费使用(或试用)。本文在后面会简单介绍免费的限制以及收费服务的收费标准。
视觉
牛津计划在视觉智能领域提供了4种服务。
计算机视觉(Computer Vision API)
微软牛津计划在计算机视觉方向提供如下服务:
- 图片检测分析
- OCR光学字符识别
- 生成缩略图
相关Demo地址如下:
人脸识别(Face API)
微软牛津计划在人脸识别方向提供如下服务:
- 人脸检测
- 人脸验证
- 相似人脸搜索
- 人脸分组
- 人脸辨识
相关Demo地址如下:
情感识别(Video API)
微软牛津计划通过上传一张照片,通过给“愤怒”、“蔑视”、“厌恶”、“恐惧”、“幸福”、“中性”、“悲伤”以及“惊喜”分别打分后返回结果的方式提供服务。
相关Demo地址如下:
视频检测(Face API)
微软牛津计划在视频检测方向提供如下服务:
- 视频稳定处理
- 人脸检测及追踪
- 运动物体检测
相关Demo地址如下:
语音
牛津计划在语音智能领域提供了3种服务。
语音识别(Speech API)
微软牛津计划在语音识别方向提供如下服务:
- 语音转文字(语音识别,支持中文,可以结合语义检测和语音合成自己做一个Siri)
- 语义检测
- 语音合成(TTS)
相关Demo地址如下:
声纹识别(Speaker Recognition API)
微软牛津计划在声纹识别方向提供如下服务:
- 声纹验证(一般用于核实用户身份)
- 声纹辨识(一般用于自动识别当前语音涉及的成员)
相关Demo地址如下:
CRIS(自定义语音识别服务 )
微软牛津计划中提供了有关语音识别的自定义服务,可通过自定义语言模型、语音模型,从而构造一套自定义模型,并借此提供服务。笔者这个从未研究过,所以不做介绍及评论。
语言
牛津计划在语言智能领域提供了3种服务。
拼写检查及修正(Spell Check API)
拼写检查服务同Word中的拼写检查功能类似,由于是云端检测,会根据当前流行语与新单词而进行更加精确的检查。相比于Word中的检测,笔者认为该项检查以及修正更加精准。
相关Demo地址如下:
LUIS(语言理解服务)
语言理解服务可理解为Apple的Siri或者是微软的Cortana。通过输入语言自动解读其中动词名字等,来理解具体语句的语义。
WebLM API
笔者不知道为什么这个要叫做Web语言模型,也许是涉及的内容同Web更加相关?牛津计划中这部分重要是识别出某个单词出现的概率,以及单词出现在指定位置的概率,最终通过这些概率信息来进行分词等操作。(n-gram算法,笔者个人是这么理解的?)
相关Demo地址如下:
总结
本文作为微软“牛津计划”系列文章的第一篇主要是针对目前所提供的服务做了一些介绍工作,希望读者可根据上述总结性的介绍,能够理解目前“牛津计划”是否能够提供您所需要的服务。并根据具体的服务,去检索文档并加以应用。
笔者目前也在利用“牛津计划”的一些服务开发一些小的应用以供未来的文章中拿出来讲解具体API的使用方式。