ImageNet的故事:李飞飞自传《我所见的世界》中文节选

李飞飞教授的自传《The Worlds I See》(我所见的世界)英文版11月出版了, 目前还没看到中文版。

此前对李飞飞教授了解并不多,除了知道她是大名鼎鼎的ImageNet发起人,以及斯坦福SAIL人工智能实验室第一位女性主任。这次读了教授的自传,实话说,超出预期。

没想到一位大科学家的文笔如此之好,教授以女性特有的细腻笔触,将自己事业和生活上的故事娓娓道来,行文之间流露着大学者的淡然,同时又把真实的工作生活经历讲得引人入胜。在阅读过程中,城主不止一次感觉到教授的行文叙事有一种强烈的电影蒙太奇感,工作和生活的线索交织前行,节奏非常好。

更不用多强调的是,这是一位AI大佬亲身讲述的自身科研经历和生活思考,不说文学性,其信息本身就有巨大的价值。

图片

整部自传一共十二章,这里和大家分享一下本城自行翻译整理的三章,讲述了李飞飞踏入研究生直至助理教授阶段,克服种种困难完成ImageNet壮举的那段经历,非常打动人,推荐,脱帽致敬。

最后也是最重要的,听说这本书中文版快要出版了,喜欢的朋友请一定购买正版纸质书支持。

分享的三章是:

第五章:第一道光

第六章:北极星

第七章:一个假设

第五章:第一道光

想象一种存在,它缺乏的感觉如此之多,以至于甚至不能被描述为「黑暗」,因为与之相对应的光的概念尚未被构思出来。想象一个世界,在这个世界里,没有视觉,没有听觉,没有触觉,使得活着的概念不过是一种代谢上的区别。想象一个生物体连最基本的自我意识都缺乏,除了一些机械无情的本能去觅食和繁殖,更不用说更复杂的概念,如身份、社群或更广阔的现实。现在想象所有这些发生在全球范围内——一个充满生物的星球,但尚未意识到自己的存在。

这就是5亿4300万年前覆盖地球大部分地区的原始海洋中生命的本质。按照今天的标准,每一个清醒的时刻都沐浴在感官之中,激发智慧,这些生物如此原始,以至于几乎接近抽象,它们的生活可能被苏格拉底描述为完全未经审视。这是一个真正未被看见的世界,以深水和浅薄的本能为特征。

当然,我们这些遥远祖先的简单性质,鉴于他们所处时代的环境,是自然而然的。他们居住在一个稀疏的水生空间中,即使是对食物的竞争也是一种被动的事务。在三叶虫出现之前的生物,几乎只能依靠偶然来偶遇它们的猎物,而猎物采取同样漫无目的的措施来避开它们的捕食者——盲目的运气——只有当下一顿饭如此接近以至于吃掉它几乎是不由自主的。然而,这种感官剥夺的影响是深远的。没有东西可以看,听,或触摸,反过来,这些早期生命形式也就没有什么可以思考的。由于与我们在日常生活中认为理所当然的外部现实没有联系,它们被如此彻底地剥夺了刺激,以至于它们根本没有大脑。毕竟,大脑不过是一种有机信息处理系统——在一个缺乏感官输入的生物体中,因而无法收集关于那个世界的信息,这几乎是不必要的。

真正想象这样一个生物的内在生活几乎是不可能的,但尝试这样做可以有所启发。这提醒我们,我们从未知晓过没有某种感官连接到外部世界的存在,即使是在子宫中,我们也不能简单地从这种意识中退后来思考另一种可能性。毕竟,思想不就是对刺激的反应,无论是直接的还是间接的吗?即使是我们最抽象的思考——即使是像心算这样短暂的事情——不也是建立在通过多年体验在物理空间中导航所获得的推理基础上的吗?不管我们的思想有多复杂,其中的大部分都可以最终追溯到来自它们边界之外的某种干扰。

然后,在一个如此短暂而又如此变革性的时期,以至于进化生物学家至今仍对其感到困惑,世界颠倒了。生命的复杂性爆炸性增长——据估计,进化速度加快到所有后续时代的四倍——激发了前所未有的竞争氛围。这是一场持续的争夺统治权的战斗,每一代新生命都在生存挑战加剧的压力下被迫进行微小的适应。在日益敌对的世界中,身体变得坚硬,以脆弱的防御性外骨骼加固软组织,并发展出攻击性特征,如牙齿、下颚和爪子。

现在被称为寒武纪大爆发的这一事件,是进化秩序的猛烈洗牌。尽管它构成了地球生命史上一个关键的篇章——也许是最重要的篇章——但其确切原因尚未确定。有些人认为它是由气候的突然变化触发的,而其他人则推测是海洋酸度的历史性转变。然而,动物学家安德鲁·帕克(Andrew Parker)看到了不同的东西,尽管许多生物学家对他的假设持怀疑态度,但它深刻影响了我对人工智能的思考。根据帕克的说法,引发寒武纪大爆发的导火索不是外来力量,而是内在力量,他认为是单一能力的出现:光敏感性,或现代眼睛的基础。

这种新兴感官的核心是一类蛋白质,称为「视蛋白」,它们展现出独特的特性,例如在吸收光子时改变形状——本质上是对光照的物理反应——并以「离子通道」的形式连接在一起,将该反应转化为生物电信号,可以在身体其他部位传输。

与今天眼睛的惊人复杂性相比,这些早期的发展虽然简单,但它们提供了一个进化的立足点,激发了快速的上升。下一步是在光敏感区域周围形成一个浅凹槽,使得不仅能够辨别附近光源的亮度,还能辨别其方向。进一步的进化迭代使这个凹槽的深度和狭窄度增加,最终形成了一个类似针孔相机的孔径。

最早在公元前400年左右的中国哲学家墨子的著作中描述,后来亚里士多德也独立观察到的针孔相机,是对暗箱效应的简单利用,这是一种自然现象,在这种现象中,通过一个小孔过滤的光在室内投射出外部世界的清晰图像。孔径显著增加了光敏感性,将视觉体验从简单的光感知扩展到整个场景的吸收。

最后,随着透镜的出现,现代视觉的基础就完成了,透镜增加了进入眼睛的光线的数量和清晰度。透镜究竟是如何形成的仍然是一个有争议的话题。

关于透镜的起源有许多猜测,其中许多假设都集中在这样一个观点上:它是从一个原本与视觉无关的纯粹保护性结构演化而来的。不过,无论其确切起源如何,透镜在进化记录中一次又一次地出现,独立地在所有生物门类中发展。它很快就形成了一个精致透明的表面,在世代间灵活适应,探索了极其广泛的光学特性,从而迅速加速了眼睛的进化。

感光性是地球生命史上的一个转折点。通过简单地让光线进入——无论多么微弱或无形——我们的进化祖先首次认识到,存在着超越自身之外的东西。更紧迫的是,他们看到自己正处于一场生存斗争中,而且可能有不止一种结果。他们开始觉醒于一个充满威胁和机遇的恶劣环境中,资源竞争日益激烈,他们自己的行动意味着吃或被吃之间的差别。

光的感知是进化军备竞赛中的第一枪,即使是最微小的优势——一点点深度的提升或几乎察觉不到的视敏度增加——都能将幸运的拥有者及其后代推向永恒寻找食物、庇护所和合适伴侣的竞争前列。这些微小的竞争优势是进化压力的游乐场,通过变异后变异不断迭代,过程中对生态系统产生了近乎即时的影响。

当然,这些变化中的大多数没有任何作用,有些甚至是有害的。但那些即使是微小优势的变化,可以成为破坏性变化的引擎,颠覆自然秩序,在一阵动荡中定下新的基线,更大的能力将很快在此基础上建立起来。随着世代的流逝,这一过程加快了,在只有大约一千万年的时间里——帕克讽刺地称之为进化的「一眨眼」——地球上的生命焕然一新。

在这种竞争动态中起到调节作用的是感官意识与行动能力之间的关系。即使是最早期的视觉形式也传达了关于生物周围环境的信息,这些信息不仅指导了它的行为,而且以前所未有的紧迫性驱动了它。越来越多,饥饿的捕食者被赋予了定位食物的能力,而不仅仅是等待食物的到来,甚至采取主动步骤去追逐它。反过来,潜在的猎物利用自己初步的意识进行回避动作。

很快,这些生物创新的火花绽放成一场集体舞蹈,随着生命分类的扩展,权力的平衡在新纪元的战斗中来回摇摆。今天,化石记录清楚地展示了这一狂热时期自然选择的成果;证据表明,仅三叶虫的进化就在寒武纪末期达到顶峰,数以万计的物种遍布十个目。

进一步复杂化这一画面的是触觉的同时出现,它很快与不断发展的视觉感觉形成了互补的平衡。与早期的光敏感性一样,原始神经末梢在生物体表面扫过,也传递了触觉信号。

这些神经细胞增长并相互连接,形成了所谓的「神经网」,这是中央神经系统的分散前身,最终将特征更高级生命形式。神经网简单但强大,是生物电系统,将运动和感官功能融合为一个适合基本任务的单一反应设计,如响应物理攻击和寻找食物。尽管原始,但神经网是一种进化上便捷的方式,以跟上竞争日益激烈的世界,甚至在今天,特别是在某些水生生物如某些水母中仍然可以找到。

但仅仅连接眼睛、神经末梢和肢体是不够的,特别是当这些眼睛进化出更广泛、更细腻的世界观,而这些肢体发展出新的自由度和更深层次的表达能力时。在复杂环境中的有效行动需要的不仅仅是反射,这又提出了另一个适应挑战,促进了在生物看到和感觉到的东西与它如何反应之间的日益复杂的中间步骤的发展。

随着感官提供的信息深度和数量的增长,生物处理这些信息的工具也受到了增长的压力——类似于今天对越来越复杂的计算设备的需求,以管理现代世界中发现的数据过剩。结果是一个中央处理枢纽,用于处理日益增长的神经系统的复杂进出,其组件被压缩得越来越密集,形成了我们现在称为大脑的器官。

因此,大脑不是来自内在某种神秘智慧火花的产物,而是对外部世界越来越清晰、越来越混乱的图像的反应,通过感官向内部延伸。感知我们周围的环境鼓励我们发展一种整合、分析并最终理解那种感知的机制。而视觉无疑是其最生动的组成部分。

这场戏剧在这些新觉醒的生物中的第一批走上旱地时达到了更高的高度,它们从波涛中出现,发现了一个陌生的景观,在这里,移动的基本原理是不熟悉的,需要一个全新的范式。例如,移动不再是毫不费力和全方位的,而是受限于平面表面,并受到重力和摩擦等物理力的干扰。

另一方面,视野的范围被极大地扩展了,因为海洋表面上方未受阻碍的大气允许了比深海的幽闭黑暗更广阔的视野。世界不再是一个模糊的液体球体,而是一个开阔的视野,从海岸线的边缘到山峰的顶峰,甚至更远的地方,都洋溢着明亮和清晰。地平线已经从几英寸增长到数英里,这些早期陆地居民的思想被挑战着相应地扩展。这对规划的概念产生了特别深远的影响,因为行动现在可以在更广阔的范围内展开,同时还要处理更多的不确定性。随着视野的范围和深度的扩展,思维不得不适应,发展出更强的智力能力,逐渐融入了因果关系的意识、时间的流逝,甚至是操纵环境本身的效应。这不仅为强大的捕食者和敏捷的猎物铺平了道路,也为真正的智慧——以及我们今天所知的人类的基础——奠定了基石。

数亿年后的今天,我们不禁对这一进化转折点所产生的世界印象深刻。数千年的文明见证了我们的物种从灵长类动物发展到游牧部落,再到农业社区,工业化城市,最终成为技术、信息处理的超级大国。

即使到现在,这一惊人的进程仍然与我们对世界的感官连接密不可分。尽管在很大程度上得到了技术的帮助,从我们口袋里的移动设备到地球轨道上的卫星,我们仍然依赖于与日常现实的连接来导航我们的生活。

恰当的是,始于化石记录的东西已经影响到我们自己的文化记录。艺术史见证了视觉的首要性——以及我们在几个世纪的过程中对其细微差别日益增长的欣赏,从预示着新交流形式黎明的洞穴壁画,到文艺复兴期间创意的爆发,再到今天的摄影、电影、电视,甚至是视频游戏。

我们可以在卡拉瓦乔的强烈对比和弗美尔与佐恩的柔和阴影之间,看到视觉理解的齿轮转动。我们可以超越现实主义,用梵高的图标学和卡洛的风格化肖像画提炼日常生活。我们甚至可以在像奥基夫和抽象表现主义者母威尔和罗斯科这样的现代主义者相对晦涩的陈述中感受到它的存在。无论是现实主义还是概念主义,感伤或政治,艺术利用那数亿年来艰难进化的成果,停留在通过个体的眼睛——因此,是个体的感性——解读世界的纯粹喜悦上。

「所以,飞飞!成为大学毕业生的感觉怎么样?嗯,差不多了。」

珍已经清理了我们的晚餐盘子,并切开了她放在柜台上冷却的一盘布朗尼。这个甜点在我近四年前第一次访问萨贝拉家时成了一个仪式;那是我第一次难忘的接触到美国甜点,我尝了一口后脸上的表情让珍非常高兴,她坚持每次我回来都要提供布朗尼。事实上它是一个简单的商店买的混合物并不重要。就我而言,她的布朗尼是奢侈的顶峰。

「非常令人兴奋。但我没想到接下来要做的选择会这么难。」

「你有没有再考虑我们谈过的那些选项?研究生院?工作?或许先旅行一下?」萨贝拉先生问道。

「给她一点时间,鲍勃!」珍一边笑着一边端上我们的甜点。

「不,不,没关系。实际上,这是我一直在思考的。」

那是1999年,我在普林斯顿的时光即将结束。我再次面临着科学抱负和生活现实之间的选择,随着研究生院的诱惑与开始职业生涯的压力相冲突。而且随着互联网热潮的全面兴起,这确实是一个真正的难题:金融界急于招募任何具有数字头脑和来自正确学校的高级学位的人,甚至像我这样的物理书呆子也成了华尔街各家公司轮番招募的对象。我被高盛、美林和其他可以想象其名字刻在庄严大理石板上的公司所追求。他们提供了一切:福利、领导机会、令人瞠目结舌的起薪,当然还有真正的健康保险。他们承诺解除我们的债务,结束干洗的辛劳,并在我母亲健康状况恶化的情况下为我的家庭提供安全保障。作为回报,他们要求的只是我放弃科学。

在反复思考了将近一个星期后,我终于在干洗店的一个安静时刻向母亲提起了这个话题。我们处于通常的位置:她坐在缝纫机前,几根别针夹在嘴唇间,一只眼睛专注地审视着她的工作,而我就在她旁边,扮演着裁缝助手的角色,拆开她正准备加长的一条裤子的缝线。

「妈妈,我在考虑我的选择。我接受了这些……『公司』的面试,我想你叫他们这个?大华尔街的类型。我必须承认,他们很诱人。」

「大……华尔街的类型?」

我意识到我已经超出了她对美国文化行话的熟悉范围。

「你知道的,股票和交易。投资。那种事情。显然我有很多要学,但我认为如果我真的下定决心,这是我能做的。」

「嗯,」她平淡地回答。「那是你想要的吗?」

「嗯,我的意思是……光是薪水就会改变我们的生活,而且——」

「飞飞,那是你想要的吗?」

「你知道我想要什么,妈妈。我想成为一名科学家。」

「那我们还在谈什么?」我的母亲总有办法迅速切断我含糊其辞的话,快到我需要一秒钟才能意识到。仅仅三步就将我困住。我要去读研究生了。

普林斯顿的教授们常说,研究生学习不仅仅是另一个学术里程碑,而是一个转折点,代表着从学生到像真正的科学家的第一次过渡,将激情转化为旅程,将亲和力转化为身份,将教育锤炼成职业、声誉和生活的基础。这是一个鼓舞人心的想法,它澄清了我面临的问题,但也使问题变得更加令人困扰。我知道我想成为一名科学家,但是什么样的科学家?确切的目的是什么?我怎么知道?

我在加州大学伯克利分校的经历让智能的神秘性变得生动起来,并向我展示了对视觉的更深入理解可能是解开它的关键。然而,从这个认识中延伸出两条道路:一条是神经科学的,承诺对大脑能力的更深入洞察;另一条是计算机的,在这条道路上,工程学的基础可以应用于建模,甚至可能复制那些能力。

我决定追求两者。

神经科学和计算研究的结合,在当时的硕士项目中至少是不寻常的搭配。尽管需要一些脚本工作来追踪它们,但还是有少数机构可以容纳它。事实上,幸运的是,世界上排名最高的两所学校正好提供了我所寻找的项目。

第一个是斯坦福的双轨项目,将神经科学与电气工程相结合,由在这两个领域都有丰富经验的罕见学者大卫·希格教授领导。希格的课程每一个细节似乎都为我量身定做,只有一个不便的例外:他已经完成了在学校的最后一年,没有他,项目将不会继续。将斯坦福从列表中划掉,我转向了麻省理工学院的另一个项目,这个项目与我的兴趣更加吻合。它是托马索·波吉奥博士的心血之作,他是一个相对晦涩的领域「计算机视觉」第一代研究者之一。即使在那时,波吉奥的工作对我来说也是令人印象深刻的,而且随着我意识到它的前瞻性,我的钦佩之情只增不减。他直接从大脑的架构中汲取灵感,构建了一系列被称为「连接主义模型」的算法——与神经网络类似的密集交织信息处理系统——来识别图像的内容。

然而,我还有另一个选择需要考虑:加州理工学院,更常被称为Caltech。尽管这所学校有着自己的悠久历史和与NASA的辉煌联系,通过其世界著名的喷气推进实验室,但不可否认的是,在排名方面它是弱者。斯坦福和麻省理工学院是世界上最负盛名的学术机构之一,很难想象拒绝它们中的任何一个——更不用说两个——的录取通知。但是,当谈到与我的英雄们的联系时,Caltech的表现远远超出了它的重量级,费曼、米利肯,甚至爱因斯坦本人都曾在那里讲课多年。至少,我无法抗拒去参观的机会。

从我踏上帕萨迪纳的那一刻起,很明显Caltech在气候方面占有优势。这是我第一次去南加州,那里的天气名副其实的阳光明媚,干燥的热气感觉像是从新泽西的潮湿中立即找到了避难所。我也被它的上镜魅力所打动,从四面八方盛开的花朵到慵懒晒太阳的乌龟池塘。麻省理工学院和斯坦福在学术上无可挑剔,但这个地方感觉像天堂。

尽管校园很小——甚至比本身就被认为很小的普林斯顿还要小——但我被Caltech的活力所淹没。五彩缤纷、通风的西班牙殖民地建筑在我在母校那些类似大教堂的沉重建筑中度过多年之后,感觉像是另一个世界。而与物理相关的观光机会无穷无尽。我立刻发现了爱因斯坦骑自行车被著名拍照的地点,随意地经过了米利肯图书馆,偶然发现了费曼传奇讲座的会场。

我在Caltech的参观中看到和感受到的一切都表明这是我应该去的地方。虽然这听起来可能微不足道,但我不能假装逃离东北雪暴多年的颤抖不是一个卖点。但是,当我遇到我将要向他们学习的人时,作为在那里学习的倾向变成了确定。

我的第一个未来导师是皮特罗·佩罗纳,他散发着意大利魅力,对跨学科研究没有界限感;他位于电气工程系,但热爱认知科学,并与我分享将两者融合的愿望。即使是在交谈中,他的兴趣也让我觉得从我们第一次互动起就异常全面。

「出于好奇,飞飞,你觉得墙上的那幅画作怎么样?」

皮特罗指向一个装裱着大胆原色的海报,上面被不规则间隔的正交线分成方块和矩形。我在普林斯顿上了几堂艺术课,很兴奋地认出它是蒙德里安的作品。

「我一直喜欢他的作品,」皮特罗继续说。「几何图形的简洁总是让我停下来思考。」

「具体思考什么?」我问。

「是否有一些规则在指导它。或者至少有能力解释它。」

「规则?你是说……像是算法?」他微笑着,然后继续说:「你不好奇吗?如果你测量蒙德里安的每一幅画作的比例,可能会发现某种模式出现,那不是很有趣吗?」

我回以微笑。我说不准他有多认真——我几乎可以肯定他是在和我开玩笑——但我喜欢他甚至花时间去构思这样的想法。聪明、爱冒险,又有点傻气,三者兼具。我觉得我这辈子都在等待遇见这样的思考者。

第二个人是计算神经科学家克里斯托夫·科赫。就像我和皮特罗一样,我在第一天就看到了克里斯托夫身上每个优秀科学家的标志:无限的想象力,以及面对这种想象力自然寻求的挑战时的无畏。他在生物物理学方面成就卓越,但他不断自我革新的记录给我留下了深刻印象。像佩罗纳一样,他渴望模糊学科之间的界限,并鼓励我也这样做。他来自物理学背景,这是我们共同的经历,也是波焦的前学生。但我在第一次会面中了解到,一种深刻的哲学热情已经缠绕在他的思维周围,并主导了我们的第一次对话。

「飞飞,你有没有想过如何向一个色盲患者解释颜色?你会如何用言语描述看到红色的体验?」

嗯……我还没有。

「我们对颜色的熟悉似乎并没有转化为描述它的能力,这不是很奇怪吗?我们真的只能提及它;当我说‘蓝色’或‘红色’时,你可能知道我的意思,但那只是因为你自己已经见过这些颜色。我的话只是在唤起你的记忆;它们并没有传达新的信息。」

这确实很发人深省。

「所以,当你想象某个未来的一代人完全理解视觉是如何工作的,你认为他们的掌握会包括能够,比如说,从基本原理描述红色的质感吗?」我思考了一会儿才回答。

「嗯……嗯,如果你真的指的是‘完全’理解的话,那不是必须的吗?」

「这是一个完全合理的回答。但它预设了可以在还原主义的解释中找到这种体验的解释。如果,不知怎的,没有呢?那又该怎么办?我们该如何处理这种矛盾?视觉可能是一个复杂的现象——也许是最复杂的之一——但它仍然是一个物理过程:物质按照物理定律行为。然而,主观上,我们的体验不是感觉非物质的吗?为什么看到红色会有任何主观的感觉?」

这些问题我以前都没有考虑过,他对它们的固执告诉了我一切我需要知道的关于他挑战我的能力。

他们俩是一对有趣的搭档。他们都很高,看起来年龄相仿——我估计他们都在四十多岁——但体型对比鲜明,皮特罗更结实一些,克里斯托夫相当瘦长。两人都有浓重的口音——分别是意大利和德国口音——但他们说话时的幽默感和随和的自信缓和了他们的强度。尽管皮特罗看起来像学者,穿着塞进裤子的纽扣衬衫和米色的多克斯裤,克里斯托夫却以一身极具冲击力的华丽服饰为傲,从鲜艳的荧光衬衫到染成漫画书颜色的头发,如绿色和紫色。

然而,他们共有的——而且是以惊人的程度——是一种只能用欢快来形容的好奇心,他们所说的一切都充满了感染力的活力。他们毫不犹豫,甚至没有一丝自我意识地提出关于复杂主题的深入问题,仿佛生命中最深刻的奥秘不过是一次对话之遥。特别是克里斯托夫,他经常被自己的思想所吸引,以至于他更喜欢在独白中探索它们,而不是和我交谈,即使是一对一的对话。但他的全神贯注来自于一种天真,而不是疏远,就像一个孩子无法自拔地被白日梦分心。这让我想起了我父亲的心不在焉,我觉得这很迷人。

在经历了多年的自我怀疑,努力学习第二语言,并因此变得有些戒备之后,我会被这样强烈的个性所吸引,这真是奇怪。但正如我和萨贝拉先生发现的那样,对科学的共同热爱可以让我感觉自己是任何人的同行,即使只是在一次友好的聊天中。当我发现自己与像皮特罗和克里斯托夫这样的人对话时,我所知道的世界几乎变得寂静无声,仿佛我们的想法本身就在交谈,不受我们的语言、地位或年龄的阻碍。他们是一种新型的榜样:不仅成功移民,而且作为科学家取得了成功。

我访问加州理工学院是我一生中最难忘的下午之一。他们是智力巨人,能够简单地与他们交谈几个小时就是一种荣幸,更不用说考虑成为他们的学生的机会了。在我的返程航班起飞之前,我的决定就已经做出了。

鉴于其演变的范围和复杂性,人类视觉能力已经挑战了几十年的自动化尝试。但如果这一切改变了呢?如果我们能够与我们的机器分享类似人类的世界意识,拥有它们的自动化速度和不知疲倦的精确性呢?想象一下,无人机甚至卫星飞越森林、冰川和海岸线,对环境健康进行全球范围内的专家评估。想象一下,智能非人类助手帮助视力受损者应对任何复杂的环境,就像人类助手一样。想象一下,通过机器人第一响应者使搜救更安全,它们将急救医疗技术人员或消防员的判断与机器的耐力和韧性相结合,或者自动化医疗诊断将专家的洞察力通过移动设备带给全世界的患者。

数字世界中也充满了机会。经过一百多年的视觉媒体发展,包括摄影、电影、新闻和电视,图像消费已成为现代生活的一个固定部分。但与文本和数字数据不同,后者自计算机问世之初就可以被搜索,即使是对图像进行粗略的搜索也仍然是一项手动工作,需要耗费人力的时间——往往还有工资。视觉智能机器如何帮助我们理解早已超出手动整理希望的集体数据负担?这样的可能性自该领域最早期以来就一直吸引着人工智能研究者。然而他们很快意识到的是——而且每一代人都只是确认了这一点——视觉理解是一个惊人复杂性的挑战,从数据本身开始。因为数字图像以像素的形式存储——即以数字编码的单个颜色点——在机器看来,它不过是一个长长的整数列表。要像人

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值