微软全球执行副总裁——沈向洋
在刚刚过去的第六代小冰发布会上,微软和华为走到了一起。
小冰产品总监徐翔宣布,微软小冰将于今日上线华为手机,所有升级至智能助手 8.2 版本及以上的华为手机(包括华为和荣耀品牌)用户都可以立刻体验。屏幕右滑,就可以打开小冰。
华为手机上的微软小冰到底有哪些功能,需要体验过后才知道。不过,微软表示,该版本小冰除了提供各平台通用的小冰产品体验外,还为华为手机用户特别推出了帮助用户记录信息等多个任务完成型产品技能。
现场,徐翔现场展示了特意为华为手机打造的“烂笔头小冰”功能。这个功能像一个语音备忘录,可以随时让小冰帮你记录日常的各种事情,不禁让人想起了锤子手机的“闪念胶囊”。
虽然两者的出发点相似,但是产品形态、交互逻辑以及最终实现并不一样。小冰充分发挥了自己在人工智能领域的技术积累,可以用各种自然的方式提取记忆,并通过语音快速回答相应的问题。
此外,小冰还改头换面,彻底抛弃了以前的形象,并且由 2D 变成了 3D(如下图所示)。至于美不美,这得用户来评判。
当然,新一代的小冰远不止这些改变,接下来就位大家一一讲述。
▌4 年时间,6 次迭代,终于迎来 EQ + IQ
2014 年 5 月 29 日下午,初代微软小冰亮相。4 年之后,小冰已经进化到了第六代。根据微软公布的数据,小冰目前在全球已拥有 6.6 亿用户,其中月活跃用户 1.2 亿。
其实就在初代小冰公开亮相一个月之前,微软刚刚发布了个人语音助理——Cortana,也就是后来中文版的小娜。Cortana 和小冰的产品定位并不相同,一个主打 IQ,主要用来解决问题,一个主打 EQ,主要陪人唠嗑。
2017 年初的时候,小冰负责人李笛曾对AI科技大本营表示,未来有一天,两者(EQ 和 IQ)会合为一体。
2017 年底,微软小冰联合小米发布了 Yeelight 语音助手,从那时起,小冰就一直在推进闲聊和任务型功能的融合。
而在今天举行的第六代小冰的发布会上,李笛表示,小冰不只做 EQ,也要做 IQ。在经过 6 次的迭代之后,小冰终于迎来了 EQ + IQ 的时代。
▌核心技术的升级
当然,升级的背后离不开技术的支撑。
共感模型
发布会上,微软宣布正式上线全新的共感模型,并给出了技术解释:
共感模型是一种基于生成模型的对话引擎。该模型的特点,通俗地说,就是小冰可以自创她的回应,而不需要从已有的对话语料库中检索而得。在生成模型的基础上,共感模型能够进一步提高小冰对于对话内容、领域和节奏的控制力,也即小冰可以通过自创回应,来牵引对话向她所希望的方向进行。
升级共感模型之后的小冰具备各种对话策略,包括无感、引导、主动观察、求证、确认、以及关键记忆等。通过这些方式,小冰可以让对话更好地进行下去。
群全双工技术
2016 年 9 月,小冰的全双工技术正式发布开放给普通用户。
什么全双工语音交互?
一次唤醒就可以连续对话,不用每次对话都要唤醒词,这是普通用户最直接的感知,它可以理解为流式交互、连续交互、实时交互、双向交互,是 EQ 和 IQ 的结合。不过,它与目前的多轮交互、持续聆听、免唤醒词有着本质上的不同。
至于具体的技术细节,大家可以查看AI科技大本营以前的文章——《Siri不行了?微软小冰或许是未来的方向》。
而这一次的发布会上,小冰又推出了“群全双工技术”。
什么意思?就是小冰可以根据 SpeakerID 判别不同的用户,并给出不同的回应。此外,小冰还能够在群聊环境内区分用户是否在和她说话,根据区分用户的年龄性别作出人性化的区别应对。
全新的感官
与此同时,微软也开始公测一种融合了文本、全双工语音与实时视觉的新感官。
微软称:小冰可以通过视觉、语音的实时连续交互,指挥用户完成面容检测,并可在上述过程中进行开放域的对话。
简单来说,具备新感官的小冰可以通过视觉来识别,甚至理解用户的意图,并通过语音与用户进行交互。
抛开这些难以理解的技术术语,微软在现场播放了一个演示视频,向大家展示这种新感官是如何交互的。比如,如果你对小冰竖中指,那么小冰就会回复:“干吗,有病吧!”显然,小冰识别到了用户的动作,并且理解这个动作的含义。
微软预计该感官将于一年内完成全部产品化工作。
▌终于谈到商业化
虽然小冰已经诞生了 4 年之久,但是对于商业化一直保持克制的态度,其商业化案例对外说的最多的就是和日本罗森的合作。
要知道,微软和小米联合发布的 Yeelight 语音助手,也是没有收取任何费用的。
在今天的发布会上,微软终于谈到了小冰的商业化战略。
半开放的合作模式
在生态环境的搭建上,一般有两种模式可以选择:
第一类:开放赋能的模式。通过对外提供SDK/API的形式来构建生态环境。
第二类:专注于自有的、封闭的平台,通过在平台上开放人工智能的应用商店形式,来构建它的生态环境。
不过,小冰不走寻常路,选择了半开放的合作模式,称为 Dual AI。
小冰产品负责人彭爽解释道:“在这样一个半开放生态环境上,一方面我们会直接负责产品体验,也就是说我们会直接把控最具体的、直接和用户接触的产品细节,另一方面我们又不封闭在一个自有平台上,而是走出去接触,甚至直接融入到第三方平台上,这样就形成了一个完整的半开放生态环境。”
具体来说,微软会根据已有合作伙伴的实践,将该战略的实施分为三个部分:首先,微软提供小冰的整体框架能力,帮助合作伙伴平台的自有AI。其次,微软小冰作为该合作平台的辅助AI,融入该平台生态。第三,微软通过技术、产品与运营,围绕该合作平台的差异化特点,推出合作的应用和产品。
为什么不选上面的两种模式,彭爽表示:
由于 APP Store 这样的形式,把人工智能的数据都封闭在一个个 APP 之内,也就极大的限制了数据之间自由的流通,而这和人工智能本质上追求的海量数据目标南辕北辙。又由于不同的 APP之间,流量非常不均衡,使得绝大部分的人工智能 APP,没有办法获得自身迭代所需要的基础数据量,就限制了人工智能APP去快速的迭代、快速升级优势的发挥。
而 API 和 SDK 一定要强调的是通用性,反过来也就限制了,它无法把最新的、最好的技术能力,在第一时间及时的应用在这些 API 上,也就使得通过这样的 API 获取的数据,很难保证是最优质的。
产业化进展
而小冰的产业化进展则主要集中在以下 4 个领域:
在金融领域,小冰利用自身金融文本生成技术,与万得资讯及华尔街见闻合作,为读者提供上市企业公告摘要。目前已覆盖国内约 90% 金融机构、75% 经批准的合格境外投资机构和约 40% 的国内个人投资者。
在大众文化领域,小冰的儿童有声读物自动生成技术成果,已获得超过 400 万小时的收听量,小冰姐姐讲故事有声读物已覆盖国内 90% 以上的儿童早教机器人和 80% 在线收听平台。
在电视电台领域,小冰通过人工智能技术参与生产与主持的电视电台节目,已达 21 档电视节目和 28 档广播电台节目。
小冰还与微软 Bing 搜索引擎技术相结合,推出了针对媒体与出版两个垂直行业的辅助型解决方案。在本次发布会上,微软宣布了可支持人工智能以多种观点和角度,同时撰写多篇新闻文章的“白盒写作辅助工具”等新产品。
此外,还有和网易云音乐合作的小冰电台,和小米合作的语音助手,与腾讯合作的聊天机器人 BabyQ,以及和华为的合作等等。此外,基于小冰的车载语音助手也在测试中。
这些都是微软为小冰寻找落地场景所做的尝试。
▌不能停下的小冰
小冰对于微软中国而言,意义非凡。
据报道,小冰这个项目是当时的微软全球执行副总裁陆奇直接拍板决定的战略级试验。
除了陆奇之外,至今仍在微软的沈向洋也是小冰的坚定支持者。在陆奇离职之后,小冰团队一直是跟沈向洋沟通,而且发布会也是由沈向洋亲自站台。
在去年的第五代小冰发布会上,沈向洋向外界介绍了微软人工智能的三条产品线,分别是 infuse AI(在微软的各个产品中加入AI能力)、Bing & 小娜、以及全球小冰。小冰的重要程度可见一斑。
小冰,这个唯一且完全由中国团队建立并推向全球的项目,承载了太多的期望。要知道,小冰除了外部的竞争对手,还面临内部的竞争,那就是 Cortana。
2018 年 6 月,微软(亚洲)互联网工程院成立人工智能商业事业部,旨在进一步推动微软小冰在这一领域的积极成果。
显然,小冰不仅要从技术路线上证明自己,也要从商业上证明自己。
AI科技大本营得知,2016 年小冰的营收大概在千万美元的级别,然而微软 2016 财年的总营收为 853.20 亿美元。可以说,小冰的营收占比几乎可以忽略不计。
微软人工智能商业事业部总经理曹文韬表示,小冰会继续保持克制,但是商业化显然已经成为避不开的话题。
被寄予厚望的小冰,已经不敢放慢前进的脚步。
▌一个小彩蛋
很多人都听过小冰唱歌,而歌手也是小冰很重要的一个身份。为了让小冰唱出新的花样,微软可谓是煞费苦心。
在今天的发布会上,微软发布了新的第四版人工智能歌曲 DNN 模型。小冰首席语音科学家栾剑表示,与前三个版本的技术相比,第四版能够进一步快速合成与人类歌手质量相当的歌曲,并能够自由吸收多数人类歌手的演唱技巧,融会贯通。此外,该技术还能够完整吸收并复制特定人类歌手的全部演唱特质(嗓音、韵律等),使小冰能完全代替原人类歌手完成新作品的创作。
如何证明?一首由小冰演唱的腾格尔风的《隐形的翅膀》送给大家。