点击左上方蓝字关注我们
01
意念打字登Nature封面!每分钟写90个字符,准确率超99%,网友:我打的都比它慢
万万没想到,脑机接口这么快就有了重大突破!甚至还登上了Nature封面。一位截瘫患者,正在用“意念”打出一段话,0.5秒左右就能输出一个字母。准确率也十分惊人,高达99.1%。
RNN立功了
这位代号为T5的老爷子脑中植入的,是两个来自Braingate的电极阵列,各含有96个电极。实验刚开始就遇到第一个困难:如何识别用户什么时候开始尝试书写字母。最后发现原本用于语音识别的模型可以完成这个任务。解决这个问题之后,研究人员发现书写单个字符时观察到的脑部活动相对固定,并且总是集中在一起。看来即使瘫痪多年,运动皮层中笔迹的神经表征也没有消退。经过人工标注后,这些数据就可以作为原始数据集了。
接下来是算法,研究人员选择了循环神经网络 。除了26个字母以外,输入英文还得有一些必要的标点符号。比如空格,研究人员就要求老爷子用>代替,英文句号只有一个点也不好分辨,用~代替。此外还有逗号、顿号和问号。
不过这次研究没加入数字,可能是研究人员觉得区分z和2有点难,就留待下次解决了。
信息来源:量子位
02
多尺度表征10亿像素图像,斯坦福神经场景表征新方法入选SIGGRAPH
斯坦福大学近日提出了用于神经场景表征的新型自适应坐标网络,不仅细节表征突出,还节省了大量的计算和时间成本。在表征 3D 形状时,训练时间可以从几天缩减至几小时,内存需求也至少降低了一个数量级。
当前,神经表征已经成为渲染、成像、几何建模和模拟应用的一种新范式。与网格、点云和体积网格等传统表征相比,神经表征可以灵活地合并入可微分、基于学习的 pipeline。神经表征近来的进展实现了在中等分辨率下表征具有丰富细节的信号,比如图像和 3D 形状,但充分地表征大尺度或复杂场景依然是一个挑战。现有的神经表征无法准确地表征分辨率大于百万像素的图像或者数十万个多边形组成的 3D 场景。
斯坦福大学近日的一项研究给出了解决方案,他们提出了一种新的隐式 - 显式混合网络架构和相应训练策略,可以在训练和推理过程中根据信号的局部复杂度来自适应地分配资源。他们将这种用于神经场景表征的自适应坐标网络( Adaptive coordinate network )简称为 Acorn。该方法中采用了类似于四叉树或八叉树的多尺度块坐标分解(multiscale block-coordinate decomposition),该分解在训练过程中进行细化。具体地,网络架构分为两个阶段:其一坐标编码器使用大量网络参数在单个正向传递中生成网格特征;其二每个块中数百或数千个样本通过轻量级特征解码器进行高效地评估。
项目主页:https://www.computationalimaging.org/publications/acorn/
论文地址:https://arxiv.org/pdf/2105.02788.pdf
利用这种混合的隐式 - 显式网络架构,研究者首次展示了将 10 亿像素图像拟合到接近 40dB 峰值信噪比。值得注意的是,与以往图像拟合实验中展示的分辨率相比,这一数据代表了 1000 多倍的尺度增加。此外,研究者的方法能够较以往更快且更好地表征 3D 形状,将训练时间从几天缩减至几小时或几分钟,内存需求也至少降低了一个数量级。
信息来源:机器之心
03
超越YOLOv5,1.3M超轻量,高效易用,目标检测领域这一个就够了!
比YOLOv4、YOLOv5 更强的PP-YOLOv2
无需再纠结YOLOv3、YOLOv4、Scaled YOLOv4、YOLOv5到底选哪个了,选PP-YOLOv2就对了!最高mAP 50.3%,最高FPS106.5FPS,超越YOLOv4甚至YOLOv5!又快又好,他不香么?
论文:https://arxiv.org/abs/2104.10419
1.3M超超超轻量目标检测算法PP-YOLO Tiny
需要在AIoT边缘轻量化芯片部署?1.3M够不够小?!比YOLO-Fastest、 NanoDet更强的PP-YOLO Tiny,AI走向产业无需再等,赶紧用起来!
全面领先同类框架的RCNN系列算法
什么?还在用mmdetection和Detectron2?你Out了!RCNN系列模型(Faster RCNN, Mask RCNN, Cascade RCNN等)在PaddleDetection进行训练,比mmDetection和Detectron2在更短的时间获得更高的精度!
SOTA 的Anchor Free算法:PAFNet & PAFNet-Lite
连检测框都不要了?莫慌,PaddleDetection2.0带你紧跟全球科研动向。SOTA(最先进)的Anchor Free算法:PAFNet(Paddle Anchor Free)& PAFNet-Lite,从理论到直接使用,保证把你安排的明明白白!
论文:https://arxiv.org/abs/2104.13534
信息来源:飞桨PaddlePaddle
04
CVPR 2021 | 无需密集人工标签,用于下游密集预测任务的自监督学习方法出炉
来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法,大幅缩小了自监督预训练与密集预测任务之间的鸿沟。
预训练已被证实能够大大提升下游任务的性能。传统方法中经常利用大规模的带图像标注分类数据集(如 ImageNet)进行模型监督预训练,近年来自监督学习方法的出现,让预训练任务不再需要昂贵的人工标签。然而,绝大多数方法都是针对图像分类进行设计和优化的。但图像级别的预测和区域级别 / 像素级别存在预测差异,因此这些预训练模型在下游的密集预测任务上的性能可能不是最佳的。
基于此,来自阿德莱德大学、同济大学、字节跳动的研究者设计了一种简单且有效的密集自监督学习方法,不需要昂贵的密集人工标签,就能在下游密集预测任务上实现出色的性能。目前该论文已被 CVPR 2021 接收。
论文地址:https://arxiv.org/pdf/2011.09157
代码地址:https://github.com/WXinlong/DenseCL
该研究提出的新方法 DenseCL(Dense Contrastive Learning)通过考虑局部特征之间的对应关系,直接在输入图像的两个视图之间的像素(或区域)特征上优化成对的对比(不相似)损失来实现密集自监督学习。
信息来源:机器之心
05
前馈网络+线性交互层=残差MLP,Facebook纯MLP图像分类架构入场
最近一段时间,多层感知机(MLP)成为 CV 领域的重点研究对象,谷歌、清华大学等机构的研究者先后提出了纯 MLP 构建的视觉架构和新的注意力机制,这些研究将 CV 的研究重心重新指向 MLP。
前几天,谷歌提出的 MLP-Mixer 引爆 CV 圈,无需卷积、注意力机制,仅需 MLP 即可实现与 CNN、ViT 相媲美的性能。同样地,清华大学的 Jittor 团队提出了一种新的注意机制,称之为「External Attention」,基于两个外部的、小的、可学习的和共享的存储器,只用两个级联的线性层和归一化层就可以取代现有流行的学习架构中的「Self-attention」,进一步揭示了线性层和注意力机制之间的关系;此外,清华大学丁贵广团队将 MLP 作为卷积网络的一种通用组件实现多种任务性能提升。
MLP->CNN->Transformer->MLP 圈似乎已成为一种趋势。
近日,来自 Facebook 的研究者进一步推动了这一趋势,他们提出了 ResMLP(Residual Multi-Layer Perceptron ),一种用于图像分类的纯多层感知机(MLP)架构。
论文链接:https://arxiv.org/pdf/2105.03404.pdf
该架构极为简单:它采用展平后的图像 patch 作为输入,通过线性层对其进行映射,然后采用两个残差操作对投影特征进行更新:(i)一个简单的线性 patch 交互层,独立用于所有通道;(ii)带有单一隐藏层的 MLP,独立用于所有 patch。在网络的末端,这些 patch 被平均池化,进而馈入线性分类器。
该架构是受 ViT 的启发,但更加简单:不采用任何形式的注意力机制,仅仅包含线性层与 GELU 非线性激活函数。该体系架构比 Transformer 的训练要稳定,不需要特定 batch 或者跨通道的标准化(如 Batch-Norm、 GroupNorm 或 LayerNorm)。训练过程基本延续了 DeiT 与 CaiT 的训练方式。
由于 ResMLP 的线性特性,模型中的 patch 交互可以很容易地进行可视化、可解释。尽管第一层学习到的交互模式与小型卷积滤波器非常类似,研究者在更深层观察到 patch 间更微妙的交互作用,这些包括某些形式的轴向滤波器(axial filters)以及网络早期长期交互。
信息来源:机器之心
飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础,是中国首个开源开放、技术领先、功能完备的产业级深度学习平台,包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件,持续开源核心能力,为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台,针对企业级需求增强了相应特性,包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业,提供零门槛、预置丰富网络和模型、便捷高效的开发平台;BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。
END