BagNet超越 AlexNet,在ImageNet 上实现最先进结果!

\u003cblockquote\u003e\n\u003cp\u003e来自德国 Tübingen 大学的研究者们提出了 BagNet,是一种基于小型局部图像特征分类的简单模型,可以在 ImageNet 上实现惊人的高准确度,这究竟是什么原理呢?\u003c/p\u003e\n\u003c/blockquote\u003e\n\u003cp\u003e在 2012 年之前,大多数机器学习算法都是使用手工创建的特征统计模型。这种模型具有较高的可解释性和有效性,但在许多语言和计算机视觉任务中,却没能达到较高的准确度。2012 年,深度神经网络模型 AlexNet 以巨大的优势在 2012 ImageNet 竞赛获胜,引爆了过去六年的深度学习革命。\u003c/p\u003e\n\u003cp\u003e事实证明,深度学习模型比标准的机器算法更为精确,因为它们能够 “直观地” 理解概念,而无需接受手工创建的特征。然而不幸的是,正是由于这种 “直观的” 理解,深度学习模型存在可解释性的问题。由于很难理解深度学习算法是如何得出结论的,因此也很难理解为什么会出错。\u003c/p\u003e\n\u003cp\u003e来自德国蒂宾根大学的一篇新论文提出了 BagNet,为机器学习中的准确度和可解释性的权衡提供了新的思路。它提出了一种模型,该模型在 ImageNet 上为非深度学习模型实现了最先进的结果,可与 VGG-16 和超越 AlexNet 的结果相媲美。该结果可以为非深度学习算法的性能提出新的见解,并为深度学习算法和挑战设置了更高的标准。\u003c/p\u003e\n\u003cblockquote\u003e\n\u003cp\u003eAI 前线注: 该论文下载地址为:\u003ca href=\"https://openreview.net/pdf?id=SkfMWhAqYQ\"\u003ehttps://openreview.net/pdf?id=SkfMWhAqYQ\u003c/a\u003e\u003c/p\u003e\n\u003c/blockquote\u003e\n\u003ch2\u003e背景\u003c/h2\u003e\n\u003cp\u003e在经典的机器学习中,最受欢迎和众所周知的概念之一是词袋(bags-of-words)。在分析训练数据库中的文本文档时,词袋算法计算每个单词在文档中出现的频率,同时忽略停用词(如“the”、“,” 等等),并使用结果生成文档的特征。类似地,在计算机视觉中,特征袋模型从训练数据(如曲线、线条、颜色)创建一组视觉特征,然后使用这些特征分析测试数据。\u003c/p\u003e\n\u003ch2\u003eBagNet 的工作原理\u003c/h2\u003e\n\u003cp\u003eBagNet 使用视觉局部特征袋(bag-of-local-features)模型来执行 ImageNet 分类,训练过程按如下方式来执行:\u003c/p\u003e\n\u003col\u003e\n\u003cli\u003e首先,将训练图像分为局部 \u003cem\u003eq\u003c/em\u003e x \u003cem\u003eq\u003c/em\u003e 子图像(图像块)。\u003c/li\u003e\n\u003cli\u003e每个图像块被编码为 1000 维向量,表示图像块预测每个 ImageNet 类的可能性。为了在 q x q x 3 图像转换为 1000 维向量,将像素放置在 48 个 ResNet 块中,每个块执行 1x1 或 3x3 卷积,最后使用 2048 维向量。\u003c/li\u003e\n\u003cli\u003e在每个 2048 维向量上应用线性分类器,使用完全连接的层和 softmax 层。将其转换为 1000 维向量。向量中的每个值表示给定图像块的每个类的概率(用 BagNet 术语表示的话叫 “热力图”)。\u003c/li\u003e\n\u003cli\u003e计算所有图像块的平均值,并添加另一个 softmax 层来生成整个图像中每个类的概率。\u003c/li\u003e\n\u003cli\u003e为了训练网络,将最后一个 softmax 层的结果与实际类进行比较,执行反向传播来设置 ResNet 网络的权重。\u003c/li\u003e\n\u003c/ol\u003e\n\u003cp\u003e为了对测试集中的图像进行分类,研究人员将测试图像划分成图像块,对每个图像块的结果进行平均,并预测得分最高的类别。由于在每个类的表示中使用了线性组合(简单的平均函数),因此理解为什么算法决定将图像分类为给定的类,就没什么大不了的了。\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c8875e0dd477.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003ccenter/\u003e在 BagNet-9(9 x 9 像素)、BagNet-17(17 x 17 像素)、BagNet-33(33 x 33 像素)版本中,热力图指出了哪些像素表示顶行图像的 ImageNet 类。较深的颜色代表每个训练图像中指示类别的部分。\u003c/center\u003e\n\u003ch2\u003e结果\u003c/h2\u003e\n\u003cp\u003e研究人员测试了三种图像块大小配置的 BagNet,每种图像块大小为 9、17、33 像素。他们发现,33 像素是准确率最高的配置,在 Top-5 验证性能中 ImageNet 得分为 87.6%,接近 VGG-16。17 像素的配置也取得了令人印象深刻的分数,前五名的成绩为 80.5%,与 AlexNet 相似。\u003c/p\u003e\n\u003cp\u003e有趣的是,由于简单的图像块平均,研究人员可以很容易地显示出算法每个错误的原因,如下例所示:\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c8875e025c26.png\" alt=\"image\" /\u003e\u003c/p\u003e\n\u003cp\u003e在最上一排的图中,背景中的绿色使算法可以预测出澳洲青苹。在中间一排的图中,顶针上的特写镜头因为遮住眼睛而看起来像防毒面罩;而最下面一排的图像,超短裙的图像看起来像书夹,因为书夹通常包含大量的文字。\u003c/p\u003e\n\u003cp\u003e然后,研究人员试图测试常见的深度学习算法是否也依赖于特定的图像块,或者能否更广泛地理解图像,其中广泛的理解意味着将图像的不同区域对空间关系的全局“理解”联系起来。为此,他们根据 BagNet 表示屏蔽了图像中最具指示性的图像块,然后测试了深度学习算法在接受屏蔽图像作为输入时的有效性。\u003c/p\u003e\n\u003cp\u003e他们发现,虽然像 VGG-16 等相对较浅的神经网络受到屏蔽的影响较大,但它对更深的、更现代化的神经网络影响较小。结果表明,正如所假设的那样,神经网络的深层有助于理解大型空间关系。\u003c/p\u003e\n\u003ch2\u003e实施详情与计算\u003c/h2\u003e\n\u003cp\u003e在建议的设计中,BagNet 模型的推理速度比普通的 ResNet-50 模型慢 75%,在同一硬件上进行分析的话,分别是每秒 155 张图像和每秒 570 张图像。根据研究人员的说法,这种差异可能是由于 BagNet 降低采样量的减少所致。\u003c/p\u003e\n\u003cp\u003e模型的说明书和预训练权重可以在网址 \u003ca href=\"https://github.com/wielandbrendel/bag-of-local-features-models\"\u003ehttps://github.com/wielandbrendel/bag-of-local-features-models\u003c/a\u003e 找到。\u003c/p\u003e\n\u003ch2\u003e结语\u003c/h2\u003e\n\u003cp\u003e虽然特征袋模型在短期内不大可能卷土重来,但从 BagNet 的结果显示来看,在没有深度神经网络的情况下,创建高质量的计算机视觉基线还是有可能的。在未来,这种模型有望在可解释性是关键的情况下(如医疗、自动驾驶等),或者调试深度神经网络时有用。\u003c/p\u003e\n\u003cp\u003e另一位研究人员还表示,研究界需要比 ImageNet 更好的任务来测试算法以非局部方式理解图像的能力。\u003c/p\u003e\n\u003cp\u003e原文链接:\u003cbr /\u003e\n\u003ca href=\"https://www.lyrn.ai/2019/02/14/bagnet-imagenet-with-a-simple-bof-model/\"\u003ehttps://www.lyrn.ai/2019/02/14/bagnet-imagenet-with-a-simple-bof-model/\u003c/a\u003e\u003c/p\u003e\n\u003cp\u003e\u003cimg src=\"https://static.geekbang.org/infoq/5c6cbb2194598.png\" alt=\"image\" /\u003e\u003c/p\u003e\n
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值