翻译 | 婉清
编辑 | 阿司匹林
出品 | 人工智能头条(公众号ID:AI_Thinker)
Sicara 是一家从事敏捷数据开发的公司,总部位于巴黎,他们精心挑选了上个月最受欢迎的 10 月人工智能博文,包括 Google 、MIT 等展示最前沿的 AI 技术、实用的计算机视觉工具包、对人工智能未来的探索和思考,以及欧盟新出台的隐私法案对全世界的影响等等,现在我们一起来浏览下这些精彩内容。
1 、“输出质量是由输入质量决定的”(garbage in, garbage out)
编者注:garbage in, garbage out,缩写为 GIGO,是计算机科学与信息通信技术领域的一句习语,译为“垃圾进,垃圾出”,说明了如果将错误的、无意义的数据输入计算机系统,计算机自然也一定会输出错误、无意义的结果。同样的原则在计算机外的其他领域也有体现。
尽管大多数机器学习研究人员都在致力于改进他们的模型,但特斯拉的数据科学家却花费 75% 的时间试图改进他们的数据集。作者建议你在知名的模型中,快速选择一个模型,然后专注于更丰富、更高质量的训练数据。此外,他还提供了不断改进这些珍贵的数据集的一些技巧。
博文:《为什么要改进训练数据,如何改进?》
Why you need to improve your training data, and how to do it
作者: Pete Warden
2 、35 亿张照片
Facebook 似乎很清数据的力量。正如本文所解释的那样,该公司使用了一种智能方法来收集大量的数据,用于训练对象识别模型。也许你也曾经为这个数据集做过贡献,因为它包含了人们在 Instagram 上发布的所有图片,并用它们的 hashtags 作为标签。
当然,尽管这种方法既聪明又高效,但它还是会引发一些隐私问题。并不是所有人都愿意 Facebook 的数据科学家查看他们的照片。
博文:《Facebook 正在使用数十亿张 Instagram 图片来训练人工智能算法》
Facebook is using billions of Instagram images to train artificial intelligence algorithms
作者: Nick Statt
3 、 GDPR 与机器学习
谈到隐私问题,5 月发生了一件重要的事情:5 月 25 日,欧盟新出台的隐私法规《通用数据保护条例》(General Data Protection Regulation,GDPR)开始生效。许多人担心这些新法规会对数据科学界产生影响,尤其是机器学习。本文试图回答有关这个主题最常见的问题。
不过,有两个问题仍未得到完整解答:
在何种程度上,公司将不得不“解释”算法如何服务用户?
人们是否有能力要求公司不要用他们的个人数据来训练他们的算法?
博文:《GDPR将给机器学习带来什么影响?》
How will the GDPR impact machine learning?
作者: Andrew Burt
4、 人工智能记者
如果我告诉你,这篇最好的人工智能文章是用算法撰写的,你会相信么?别担心,事实并非如此。但是这篇文章让我想到,总有一天它会成为可能。Salesforce 开发了一种新算法,能够提炼出任何长篇文档的中心思想,而且非常连贯。
Salesforce 数据科学家使用的是强化学习技术,根据 ROUGE 自动评估指标对输出摘要进行评分。
译注: ROUGE,Recall-Oriented Understudy for Gisting Evaluation,是评价机器学习系统的指标之一,用于评测自动摘要。
博文:《一种很好地总结长篇文档的算法》
An Algorithm Summarizes Lengthy Text Surprisingly Well
作者: Will Knight
5 、 The Book of Why
相关性并不意味着因果关系,这就是从数据中推断因果关系往往很棘手的原因。但是图灵奖得主 Judea Pearl 想接受这个挑战。他刚刚写了一本书 The Book of Why: The New Science of Cause and Effect。
正如我在这篇博文读到的,Judea Pearl 对机器学习的最近进展表示失望,这些进步“只是曲线拟合”。他认为,学习人工智能来找到原因是接近人类智能的真正下一步。
译注: Judea Pearl 是人工智能领域的先驱、贝叶斯网络之父。他认为目前人工智能深陷于概率关联的泥潭,而忽视了因果,研究者应该研究因果,这或许是实现真正智能的机器的可能路径。
博文:《要实现真正智能的机器,要教会它们因果关系》
To Build Truly Intelligent Machines, Teach Them Cause and Effect
作者: Kevin Hartnett
6、 一个新的深度学习计算机视觉工具包
这篇 MXNet 博文的作者解释道,他和他的团队在试图复制论文的实验结果时遇到了很多问题。为了解决这一问题,他们开发了 GluonCV,这是一个新的工具包,允许任何进入深度学习领域的新手尝试使用最近重要论文中的预训练模型。
GluonCV:https://github.com/dmlc/gluon-cv
对于初学者来说,学习这些概念很有用;而且,对于工程师来说,想要快速测试新模型以确定是否适合他的问题的话,这些也是非常有用的。
博文:《GluonCV:用于计算机视觉的深度学习工具包》
GluonCV — Deep Learning Toolkit for Computer Vision
作者: Mu Li
7 、 “OK Google, 给我约个理发师!”
5 月最令人印象深刻的消息之一,就是 Google 展示了他们称之为 Google Duplex 的新技术,这个智能助理可以为了通知预定服务而给餐厅或商店打电话。你可能会想了解一下这个深度学习算法是如何工作的。幸运的是,Google 在其官博上解释了这一点。
博文:《Google Duplex:用于通过电话完成实际任务的人工智能系统》
Google Duplex: An AI System for Accomplishing Real-World Tasks Over the Phone
作者: Google AI Blog
8 、不依赖 3D 地图的自动驾驶技术
到目前为止,自动驾驶汽车一直依赖于密集标注的 3D 道路地图。这些地图被用来确定汽车在这些道路上的精确轨迹。这种限制使得在人迹罕至的乡村道路上开车变得非常困难。
但正如这篇文章所写的,MIT 的研究人员首次构建了一个不需要这种特殊地图的自动驾驶系统原型。它只使用标准的不精确地图(来自 Google 地图)和传感器来检测道路的弯道。
博文:《MIT 研制了一款自动驾驶骑车,可在未绘制地图的乡村道路上行驶》
MIT built a self-driving car that can navigate unmapped country roads
作者: Andrew J. Hawkins
9 、 Google 的争议
正如《纽约时报》在这篇文章中所说,5 月有一个关于 Google 项目的争议,引发了公司内外的争论。这个 Google 和五角大楼合作的计算机视觉项目,称为 Maven,包括分析无人机拍摄的图像,以便能够让一些攻击实现自动化。
Google 数千名员工强烈反对公司参与军事技术,已经签署了一份请愿书以阻止该项目。
博文:《五角大楼合同如何成为Google的危机》
How a Pentagon Contract Became an Identity Crisis for Google
作者: Scott Shane
10 、十本免费的必读书籍
让我们以最佳选择来总结这个“五月人工智能精选”。我想推荐的最后一篇博文,介绍了十本关于机器学习和数据科学的有用书籍,它们可以在网上免费获取!如果你想学习或者提高 Python、神经网络、数据挖掘或贝叶斯统计,你可以在这些书籍中找到所需的一切。
博文:《十本机器学习与数据科学领域的免费必读书籍》
10 More Free Must-Read Books for Machine Learning and Data Science
作者: Matthew Mayo
——【完】——