本周AI热点回顾：ImageNet验证集6%的标签都是错的；对决英特尔，ARM v9架构正式发布...

飞桨PaddlePaddle

于 2021-04-04 15:02:40 发布

阅读量275

点赞数

文章标签：人工智能大数据深度学习编程语言计算机视觉

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们

ImageNet验证集6%的标签都是错的，MIT：十大常用数据集没那么靠谱

把老虎标成猴子，把青蛙标成猫，把码头标成纸巾……MIT、Amazon 的一项研究表明，ImageNet 等十个主流机器学习数据集的测试集平均错误率高达 3.4%。

在一篇新论文中，麻省理工 CSAIL 和亚马逊的研究者对 10 个主流机器学习数据集的测试集展开了研究，发现它们的平均错误率竟高达 3.4%。其中，最有名的 ImageNet 数据集的验证集中至少存在 2916 个错误，错误率为 6%；QuickDraw 数据集中至少存在 500 万个错误，错误率为 10%。

论文链接：https://arxiv.org/pdf/2103.14749.pdf

虽然这些基准测试数据中存在很多错误标签，但研究者发现，在移除或修正这些错误之后，基准中的模型相对排名并没有受到影响。但他们也发现，这些基准结果是不稳定的：与参数较少的模型（如 ResNet-18）相比，容量较大的模型（如 NasNet）在预测结果中更加能够反映这些系统性标签错误的分布，而且这种效应随着测试标签错误普遍性的增加而变得更加明显。

信息来源：机器之心

轻量级NLP工具Trankit开源，中文处理更精准，超越斯坦福Stanza，内存占用小45%

最新轻量级多语言NLP工具集Trankit发布1.0版本，来自俄勒冈大学。

基于Transformer，性能已超越之前的热门同类项目斯坦福Stanza。

Trankit支持多达56种语言，除了简体和繁体中文以外，还支持文言文。

Trankit在GPU加持下加速更多，且占用内存更小，作为一个轻量级NLP工具集更适合普通人使用。

统一的多语言Transformer

Trankit将各种语言分别训练的Pipelines整合到一起共享一个多语言预训练Transformer。

然后为每种语言创建了一组适配器(Adapters)作为传统的预训练模型“微调(Fine-tuning)”方法的替代，并对不同的NLP任务设置权重。

在训练中，共享的预训练Transformer是固定的，只有适配器和任务特定权重被更新。

在推理时，根据输入文本的语言和当前的活动组件，寻找相应的适配器和特定任务权重。

这种机制不仅解决了内存问题，还大大缩短了训练时间。

Github仓库：
https://github.com/nlp-uoregon/trankit

在线Demo：
http://nlp.uoregon.edu/trankit

相关论文：
https://arxiv.org/pdf/2101.03289.pdf

信息来源：量子位

飞桨与龙芯完成兼容性认证

近日，百度飞桨深度学习框架与龙芯国产通用处理器进行了安装部署测试、基本功能测试和稳定性兼容性测试，联合测试结果显示百度飞桨深度学习平台在龙芯3A4000平台上均能顺利安装，且系统整体运行稳定，满足用户的关键性应用需求。

图：百度飞桨与龙芯中科产品兼容互认证证书

本次适配是由飞桨团队和龙芯中科团队基于3A4000平台，在Loongnix release 1.0操作系统下进行了完备测试。目前在MIPS龙芯处理器加龙芯国产操作系统上安装飞桨，只支持源码编译的方式。完整的安装文档请见：

https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/compile/mips-compile.html#anchor-0

信息来源：飞桨PaddlePaddle

10年重大更新！对决英特尔，ARM v9架构正式发布，华为海思还有使用权吗？

ARM推出了全新的Armv9架构，这是自Armv8十年前推出后，该架构首次重大变革，Armv9架构将会给接下来两代芯片带来30%的性能提升。

ARM是全球领先的半导体知识产权 (IP) 提供商。全世界超过 95% 的智能手机和平板电脑都采用 ARM 架构。当前，英特尔、苹果、华为海思都是ARM的主要客户。

ARM如果停止对华为授权，那华为海思将受到怎样的影响？

目前，华为海思只负责设计芯片，生产和封测都是交给像台积电半导体生产制造商。ARM本身不做实体产品，而是卖的销售技术授权，为海思、高通等IC厂家提供授权。ARM的授权大致分为两种一种是指令集授权，一种是微架构授权，ARM主要就是靠授权费和版税来盈利。所以，华为如果被ARM停止授权，若是想要在自家产品保持竞争力。华为就需要在完成在ARM+竞争对手工作量。即使 ARMV9 封杀华为，那也不用担心，备胎转正的高光时刻真来了。

幸好的是，华为早有准备，华为早已准备好自己的备胎CPU、NPU，也就是说，华为不怕ARM停止授权。再加上，华为已经获得了ARM8架构的永久授权，ARM8是ARM公司的32/64位指令集，目前的处理器都是这一指令集的产物。即便是ARM断供，华为可以完全自主设计ARM处理器，掌握核心技术和完整知识产权，具备长期自主研发ARM处理器的能力，不受外界环境制约。

也就是说，即便ARM迫于某些压力不再授权ARM指令集给华为，华为几乎不会受到影响。

信息来源：新智元

消费级GPU、速度提升3000倍，微软FastNeRF首次实现200FPS高保真神经渲染

近日，微软提出了一种基于 NeRF 的新系统 FastNeRF，用它来渲染逼真图像，速度能有多快呢？在高端消费级 GPU 上达到了惊人的 200FPS！

神经辐射场（Neural Radiance Fields, NeRF）领域的最新研究展示了神经网络编码复杂 3D 环境的方式，这类方法能以新的视角真实地渲染环境。渲染这些图像需要非常大的计算量，即使在高端硬件上，这些新进展与实现交互式速率仍然相去甚远。

在本文中，来自微软的研究者提出了一种名为 FastNeRF 的新系统，它以每秒数百帧的速度渲染对象的高分辨率真实性新视图。相比之下，NeRF 等现有方法在速度上要慢几个数量级，并且只能以交互速率渲染分辨率很低的图像。

FastNeRF 的提出受到了移动和混合现实设备上场景的启发，并且是第一个基于 NeRF、能够在高端消费级 GPU 上以 200Hz 渲染高真实感图像的系统（如上图右）。该方法的核心思想是图启发的分解，它允许：在空间中的每个位置紧凑地缓存一个深度辐射图；使用光线方向有效地查询该图以估计渲染图像中的像素值。

大量的实验表明，在运行速度上，FastNeRF 是原始 NeRF 算法的 3000 倍，比加速版 NeRF 至少快一个数量级，同时又保持了视觉质量和可扩展性。

在 Realistic 360 Synthetic 数据集中 Lego 场景图上，新方法与其他方法的速度评估对比结果。

论文地址：https://arxiv.org/abs/2103.10380

信息来源：机器之心

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础，是中国首个开源开放、技术领先、功能完备的产业级深度学习平台，包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件，持续开源核心能力，为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台，针对企业级需求增强了相应特性，包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业，提供零门槛、预置丰富网络和模型、便捷高效的开发平台；BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END

飞桨PaddlePaddle

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
本周AI热点回顾：ImageNet验证集6%的标签都是错的；对决英特尔，ARM v9架构正式发布...

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍点击左上方蓝字关注我们01ImageNet验证集6%的标签都是错的，MIT：十大常用数据集没那么靠谱把老虎标成猴子，把青蛙标成猫，把码头标成纸巾……MI...
复制链接

扫一扫