来源:雪球App,作者: 谭婧在充电,(https://xueqiu.com/1359776485/120371639)
来自加州大学洛杉矶分校Samueli工程学院和斯坦福大学的研究人员展示了一种计算机系统,该系统可以基于与人类使用的相同视觉学习方法发现和识别它“看到”的真实世界物体。
该系统被认为是“计算机视觉”的技术的进步,它使计算机能够读取和识别视觉图像。这是迈向通用人工智能系统(general artificial intelligence systems)的重要一步 ,计算机可以自我学习、有直觉、还可以基于推理做出决策,并以更人性化的方式与人类互动(这里可以回忆一下各种智障的客服问答系统)。
尽管当前的AI计算机视觉系统的能力越来越强大,但它们是针对于特定任务的,简单地说就是会识别花的算法不一定会识别人脸,找人脸和找花都是特定的任务,这意味着它们这项识别所看到的内容的能力,受到人类训练和编程的程度的限制。
即使是今天最好的计算机视觉系统在看到对象的某些部分后,并无法创建对象的完整图像,而且系统在熟悉的环境下可以高效判断的能力,下一秒换个环境,可能会被欺骗,原因就是因为在一个不熟悉的环境施展不出来发力。AI工程师的目标是使计算机系统具备这样的能力 :就像人类可以理解他们看到一条狗一样,即使狗躲在椅子后面,看见的只有狗爪子和狗尾巴,及其依然能够判断出躲在椅子后面的是狗。
当前的计算机视觉系统不是直接设计成能够自己学习的。他们必须接受有关学习内容的训练,通常是通过识别成千上万的图像,在这些图像最好都是标记好的。每一次对所标记图片的识别都是一次学习。
当然,计算机也无法解释它们确定照片中物体代表什么的基本原理:基于AI的系统不像人类那样建立学习对象的常识模型。
《 美国国家科学院院刊》(Proceedings of the National Academy of Sciences)中描述的工程师的新方法展示了解决这些缺点的方法。
该方法由三个主要步骤组成。
首先,系统将图像分成小块,研究人员将其称为“viewlets”。
其次,计算机学习这些视图是如何组合在一起的。
最后,它会查看周围区域中的其他对象,以及有关这些对象的信息是否与描述和识别主要对象相关。
为了帮助新系统“学习”得更像人类,工程师决定将其浸入人类生活环境的互联网复制品中。
加州大学洛杉矶分校电气与计算机工程教授和该研究的首席研究员Vwani Roychowdhury说:“幸运的是,互联网提供了两个有助于大脑启发的计算机视觉系统,以与人类相同的方式学习的东西。第一个是互联网有丰富的图像和视频,其中有不少描绘了相同类型的物体。第二个是这些物体被放置在不同的环境中,多视角的。比如模糊、鸟瞰、近距离。 “
为了开发框架,研究人员从认知心理学和神经科学(neuroscience)中汲取了见解。
Roychowdhury教授说:从婴儿时期开始,我们就知道什么是某种东西,因为我们在很多情况下看到了很多这样的例子。情境学习是我们大脑的一个关键特征,它帮助我们建立强大的物体模型,这些模型是整合世界观的一部分,在这个世界观中,所有事物都在功能上相互关联。
研究人员用大约9000张图像对系统进行了测试,每张图像都展示了人和其他物体。该平台能够在没有外部指导,且没有标记图像的情况下建立人体的详细模型。
工程师们使用摩托车、汽车和飞机的图像进行了类似的测试。在所有情况下,他们的系统表现得更好,或者至少与通过多年训练开发的传统计算机视觉系统一样好。(完)