现场丨2017中国计算机大会（CNCC2017）之沈向洋演讲：自然语言中的描述、对话和隐喻-CSDN博客

最近我一直讲的一句话就是“得语言者，得天下”，只有我们切身明白自然语言是怎么回事才能够真正把人工智能讲清楚。

在这里，我侧重三方面内容，主要讲讲如何一步步深入研究自然语言：

第一步，表述方面：通俗来说，就是如何利用自然语言技术表述一个事件。如今关于表述的研究，已经发展得非常好了。

第二步对话及智能：相对而言，这个比较难一点。对话即智能，这是目前来说非常强调的一点。

第三步机器意境：相比以上两点，这点比较悬疑，就是说整个机器意识，到底应该如何理解？意境到底是怎么回事？延伸来说，为什么有些人讲的东西你觉得比较有深度？

刚刚提到的三点实际是可以理解为三个层次，正如小学、初中、高中所训练的作文写作一样。

第一层次：小学老师说，你要把一件事情清楚写出来，这就是记叙文。

第二层次：可以总结为正论文。也就是对话层面，简单来说就是要把一个问题讲清楚，论点、论据、论证缺一不可。其实我们大多数的科研论文都是处在这样一个level。

第三层次：当你的文章开始写得有点水平时，老师说可以写诗歌、写散文，写一些表达自己心境、情怀的文章，运用到我们研究的自然语言理解中，也就是机器意境这个层次。

下面，我会通过具体的案例来详细解析这三个层次的研究。

首先，讲一讲如何用机器学习来做自然语言表述。这里我用一个比较特别的例子——降低视觉和自然语言结合，同大家解释一下。

想表述清楚这个问题，就要提一下我们一直以来推出的微软认知服务（Microsoft Cognitive Services），其中有一个很特别的东西，名为Traction ball。就是说，上传一张照片后，它可以直观告诉你，这张照片中到底有什么以及如何描述这张照片。

此后，基于这个技术，我们做了一个应用软件——Saying AI，它可以为盲人服务。

回到照片描述的这个问题上，也就是我刚才提到的Traction ball。这个特殊的技术，最基本的原理就是计算机视觉的API，称为Image Capture。

例如，配上一张照片，一个人游泳的照片，在这张照片中我们能够得到什么样的表述呢？能不能检测到说照片中的人数，人的动作、表情等很多信息？卖个关子，如果大家有兴趣的话，可以到微软的网页上浏览，会有很多技术涉及到这方面。当然我们除了Traction ball之外，还有很多其他的类似的视觉服务，这只是一个很好的具有代表性的例子。

值得一提的是，我们在做Traction的服务时，专门做了一个标准数据集，叫做Microsoft COCO。在COCO的研发中，我们也一直与其他的系统做过可行性的比较。实践表明，过去一年的时间内，我们做Traction是比较出色的，但从数据的角度出发，如今微软研究院做的系统大概是26.8%的准确率，人类目标希望达到63.8%，我们确实还有很长的一段路要走。

如果深入了解的话，Traction的服务除了标准数据集之外，还会涉及图像描述。图像描述主要想解决什么问题？实际上可以定义为计算机视觉和计算机语言交汇的地方。首先要具备一个语意空间，随后就可以将整个图像的空间和特色投影到文字表述，通过字、句、段来呈现。

例如，这是一个网球场，一个人拿着球牌，在机器表述中还有没有表现出来的要素，这些都是我们技术提升的方向。所以语意空间是连接图像和文字的有效工具，于是我们做了一个深度结构语意的模型DSCM，在这方面又有了巨大的空间提升。

谈一谈有关表述的产品发布出去后还会有什么问题呢？

所谓Diploma dreamer research，最重要的一点就是你发布出去之后，用户会在两方面进行辅助，提供更多的用户数据以及提供建议，帮助你意识到这个系统的问题在哪里。早期，更多是用户觉得系统或者是产品如何；现在更多是我们自己讲，我们觉得系统怎样，如果做一个correlation，就会对比清楚明了。

问题一：有一些做的真好，我们说好，用户也说好，这些通常是一些很自然的场景，叫做In natural photo，一些common objects，例如城市的一些雕塑等。

问题二：我们觉得做的不太好，但用户觉得做的好，有一些很自然的场景，就是加上这种类型的照片，一定程度上可是我们的confidence比较低，但用户觉得挺好。相反，有时候我们觉得还行，但是用户觉得不行。

问题三：我们也觉得不行，用户也觉得不行。例如一开始做raiseman分析的时候，一些照片从图像特征分析开始就有问题。

做完这个对比分析后，我们得出了什么重要结论呢？在做大数据的时候，在做这样AI的问题中，大家一定要明白，要分析数据，就是You know want you know、You know want you don’t know、You don’t know want you know and You don’t know want you don’t know，所以你要做这样一个分析。

如今，相关产品不断迭代，技术不断更新，模型架构不断趋于精准，那么基于这类技术，落地应用情况又如何？

例如，在我们的办公室软件中，用户数量非常大。例如Power point，今天如果你做PPT的话需要上传一张照片，我就可以告诉你，这张照片大致上可以说用怎样的Image Capture。如果觉得不是很perfect的话，可以建议其中用一些什么样的object，也可以考虑要不要这样去用。此外还有之前提及的SAYING AI，它是专门为是为有挑战的人士（盲人）准备的。

一直以来，我们不断思考人工智能最后的目的是什么？人工智能的目的是打败人类还是帮助人类？对于微软来说，我们觉得人工智能的目的是帮助有需要的人类。在此基础上，我来讲讲对话与智能。

对话就是智能，智能在于对话，你问我，这样表述到底是什么意思？其实回答这个问题之前，应该了解两件事：机器阅读理解其实是从从回答问题到提出问题；问答对话生成是从一问一答到提出问题。

目前深度学习确实在语言智能方面帮助很大，我们现在可以用很多深度学习的方法去完成对语言的深度理解，不仅能够回答问题，还能够提出问题。那么问题来了，怎么去提出问题？读一段书，你要从文本里面找到关键点，然后要围绕这些关键点的话，这就可以生成问题。

最近我在加拿大买了一家做的很不错的AI公司，叫做Mover。主要是在做reading、capture，他们最近发表了一篇论文就解释了如何找到问题并提出。

当然不能光提问题，提问题的意义就是现在还知道答案，答案是three，这是我们现在很努力在做的事情。AI提了一个很有趣的问题，就是说“How many breakers？或者record？

不仅仅是回答问题以及询问问题，更重要的事情是要具备一个连续对话的系统。现在我们用微软聊天完成小冰的架构，主要就是要做一个对话深层模型，其中包括一个记忆机制。做之前要知道谈话的内容、观点以及主题，做这样一件事情之前，首先要有一个record，接下来要有一个attention，attention这样一个model。

谈到现在的关注点，整个过程中，要对对话整体的情绪和情感做一个建模，对用户的画像，也就是用户要有足够的理解。在这上面，综合用户的上下文和AI的上下文，再加上整个用户当前的输入，你就可以预测接下来应该讲什么。但问题还远没有那么简单，当你有这样一个连续对话，长程对话的时候，应该想到必须要有一个引导机制，不然整个聊天会没有方向。

所以，应该有这样一个focus，要加上一个话题引导机制，同时还要有相关的兴趣话题在里面。所以满足这两个非常重要的方面，就是对话即智能。

相对来讲，我们提出的问题，并不是那种可以给出很多答案的问题。当我们在机器的描述到机器的对话，到底智能体现在哪里呢？仅仅是能够规划，那还不算是真正的智能，真正的智能最应该体现在这个对话中。

以图片举例，图片能够被诠释成Capture，但这些Capture到现在为止仅仅是一个客观描述；也许更加有突破性的事儿，就是一张照片出现之后，不仅仅具备客观描述，更重要的是对它有一个主观评价。甚至说，一张图表示一个意境，可以从这张图片出发做诗，意境到底体现在哪里？什么是天马行空的意境？为什么古人讲只可意会，不可言传，怎么体现出来的？

由此展开对机器意境的一个详细的解释。我觉得我们可以建一个模型，可以讲的很清楚AI到底要解决什么样的问题。到现在为止，通过自然输入，语音也好、语言也好、手写也好、键盘也好，机器把这些自然输入做成机器的representation，在做这样一个深度学习，就出现了一些机器意境的结果。

今天绝大多数人工智能的科研都停留在这一步，机器的结果出现后就结束了，真正有意义的实际上是要继续下一步，也就是反向推理。要把机器的结果，通过反向推理，让人可以理解，让人能够感觉讲的到底是什么。

下面，我来讲讲我们是如何将以上三个层次的技术与理解应用到小冰上。比如说诗歌这件事情，每个人写，每个人读，意境不同，理解可能都很不一样，为什么？

让我们看看小冰的图片评论，例如今天大家用小冰聊天机器人。如果描述的话，一只肿了的脚，这就很了不起，但评论说伤的这么重，疼不疼？这太神奇了，怎么能够知道呢？

图中有两只猫，这也很了不起，很多人都可以做到。但评论说，小眼神太犀利了，真了不起。

第三个，表述比萨斜塔，这能做出来也很了不起，谁知道这是不是比萨，评论说你要不要我帮你扶着？我们需要的就是这个结果。所以一定要在补充最后一步，才可以让人更好的理解机器。

最近微软做了一个非常激动人心的工作，小冰写诗。上线了大概几个月，在微信上，全国的网民（小冰的fans）一共发表了22万首诗，这是个什么概念呢？就是中华人民共和国到现在真正发表的诗歌可能还没有这个数字。

通常大家都觉得，自己的诗写的不够好，还没到到真正刊登的程度，只在自己的微信朋友圈发布就可以了。

小冰是如何作诗的？

首先，通过tool把整个照片的意思搞清楚，这是街道、城市、红绿灯，很繁忙。第一步是先要生成单首诗、一句诗，做法是一个前向的RNN，再加上反向RNN的模型。我们现在正在写这篇论文，应该很快可以发表，到时候大家可以再批评。

一句诗出来后，再加一个基于递归神经网络的一个laid generation approach，例如从这张照片出发，我们可以产生一首诗，大意是城市在他身后缓缓的流动，我的生活忙碌，我们在没人知道的地方寂静，嘴边挂着虚假的笑容。你问我这个人到底讲什么？我说我也不知道这个人到底讲了什么。

我自己觉得，AI最了不起的，就是做人脑的延伸，对于人脑的理解，最重要是有两个方向，一个叫做IQ，一个叫做EQ。小冰写诗就是这个意思。

任何一个科技时代，我们都会去想改变我们的事。当年的PC时代，是操作系统和应用软件；后来的互联网时代，是浏览器加上搜索引擎；后来的移动时代，APP为王；现在AI时代就说到了对IQ、EQ的理解。

我们非常高兴小冰这个产品已经登陆中国、日本、美国、印度、印尼五个国家，目前有上亿用户。我自己非常自豪这个产品从北京做起，走向世界，我觉得其中最重要的一方面就是在人工智能的发展过程中对自然语言的理解。

最后，我还是要强调，接下来的研究方向就是自然语言，就像非常了不起的一首诗所言，“得语言得天下，不要人夸颜色好，只留清晰满乾坤”。