华为云AI领域:云原生时代,视觉预训练大模型探索与实践

       本篇文章是博主在人工智能等领域学习时,用于个人学习、研究或者欣赏使用,并基于博主对人工智能等领域的一些理解而记录的学习摘录和笔记,若有不当和侵权之处,指出后将会立即改正,还望谅解。文章分类在学习摘录和笔记专栏

       学习摘录和笔记(27)---华为云AI领域:云原生时代,视觉预训练大模型探索与实践》

华为云AI领域:云原生时代,视觉预训练大模型探索与实践

目录

1 前言:

2 华为云 AI 基础研究进展

3 视觉预训练大模型研究和实践

3.1 最新工作

3.2 自监督学习改进

3.3 第二个核心研究方向

3.4 网络架构搜索工作

4. 视觉任务的进展和在行业的实践


1 前言:

        随着企业数字化的转型,传统企业已基本上将业务从线下搬到了云上。第一个阶段是将企业的业务简单地部署到云上,称之为 ON CLOUD。在这种形态下,通过资源池化,解决了 IDC 时代运维、部署、扩容的难题。

        现在的 ON CLOUD 进阶到 IN CLOUD 阶段,即基于云的技术架构来构建企业业务,通过构建多云、多中心的分布式架构以及敏捷、智能的企业数字化业务,将企业的数字化建设带入智能化新阶段。

华为云对 AI 平台打造了四层体系

        第一层是智能体;

        第二层是知识计算解决方案;

        第三层是 ModelArts Pro,针对专业应用开发套件;

        第四层是 ModelArts Fundamental。


2 华为云 AI 基础研究进展

        华为云长期扎根 AI 技术基础研究,在计算机视觉、语音语义、决策优化三个方向做了深入探索与研究。针对数据、模型和知识提出了六个子计划。

        1. 针对模型包含两个计划,一个是针对大模型的模型摸高计划,提供极致的性能;第二是针对小模型的模型瘦身计划。

        2. 针对数据提出了两个计划,一个是处理多模态的数据魔方计划;另一个是针对小样本学习的数据冰山计划。

        3. 针对知识的高效提取,提出了两个计划:建造通用 AI 系统的万物预视计划以及学习一种新范式的虚实合一计划。

        在这些计划中,始终聚焦在模型高效、数据高效、知识高效等重点方向上。


3 视觉预训练大模型研究和实践

        在对比自监督学习方面有两项优化工作,首次实现了在 ImageNet 线性分类任务中达到全监督基线性能,并且在小样本分类上大大超越了之前的方法。

存在的问题

        现有的自监督预训练模型仍然处于探索阶段,存在大量的问题未能够解决:

        1. 现有的自监督预训练算法迭代缓慢,很难复制到大模型以及超大规模数据集;

        2. 相较于全监督学习,其特征表达在大多数下游任务上仅仅能获得与之相比拟的结果,其进一步的性能优势还有待挖掘。

发展方向

        如何利用自监督学习在超大数据集合,超大模型上获取更强的泛化性能将会是未来的发展方向。

3.1 最新工作

        在对比自监督学习框架下:

        1. 提出了基于邻域保持的混合图像增强,在业界首次提出了利用不同图像数据增强策略提升其泛化性能。

        2. 提出了基于局部领域混合增强的技术,把多个相似样本的特征拉近,不同样本的距离拉远。

3.2 自监督学习改进

自监督学习仍然存在优化困难,收敛速度慢等问题,为此,做了两点改进,

        第一,我们拓展了自监督学习算法中正样本数目,使得正样本集合能够更加高效的被聚集,同时避免受大量负样本优化的影响。

        第二,我们在浅层特征上引入对比自监督学习,通过精心设计的浅层优化目标加速训练过程,在浅层特征上实现了更好的可分离性,我们发现这些优势对小样本学习有极大的提升。

3.3 第二个核心研究方向

        华为云的第二个核心研究方向是如何设计高效的视觉识别模型,即模型高效。在这个方向主要聚焦两个方面:

        第一是如何设计神经网络模型

        第二是在神经网络架构搜索中,如何在原子算子层面上进行搜索。

3.4 网络架构搜索工作

P-DARTS

在网络架构搜索上第一个工作是 P-DARTS,提出渐进的可微分网络架构搜索算法。

        搜索出的网络也面临几个问题,第一个问题,搜索空间仍然是手工定义的;第二个,搜索的卷积算子是人工定义的而且相比于手工设计的网络,搜索的网络可迁移性也是比较差的。

        早期的方法直接加深搜索的深度,但是会造成显存爆炸的问题,并且导致搜索不稳定。为了解决这个问题,提出了两个思想,一个是搜索空间近似,第二个是搜索正则化。

PC-DARTS

在架构搜索上的第二个工作是 PC-DARTS,这是业界搜索速度最快的网络架构方法之一,其主要思想有两个,

        一是采用局部连接的思想来解决网络冗余的问题,

        二是采用边正则化的思想来解决网络搜索稳定性的问题。

并且,这个工作首次在大规模图像数据集 ImageNet 上进行了神经网络架构搜索。

GOLD-NAS

        最新的一个相关工作是 GOLD-NAS,渐进剪枝的单阶段可微分搜索算法。这个算法主要的一个贡献是它打破了传统可微分搜索空间的诸多限制,因此大大增加了搜索空间的容量,并提出了单阶段优化策略和渐进剪枝的优化策略。

        从结果上看,在扩大的搜索空间中,算法不仅能够找到绝对性能更强的网络,也能找到具有更高性价比的网络。

卷积搜索

        第四个工作是卷积搜索,提出对卷积操作进行搜索,当前的模型搜索都是采用一些固定的卷积操作,比如 1×1、3×3 的卷积,这种方式限制了模型的性能。

        因此,为了将卷积的设计也纳入搜索的范围,这个工作提出了针对点云任务的基于数据驱动的模型搜索,同时对卷积的结构也进行了搜索,将来将进一步扩展到传统的图像领域。


4. 视觉任务的进展和在行业的实践

        第一个进展是图像分类技术

        第二个进展是弱标注场景下的图像分类技术

        第三个进展是图像检测、分割技术

        第四个进展是多模态数据处理技术


参考:Qcon 全球软件开发大会华为云AI领域首席科学家、IEEE Fellow田奇:云原生时代,视觉预训练大模型探索与实践

     文章若有不当和不正确之处,还望理解与指出。由于部分文字、图片等来源于互联网,无法核实真实出处,如涉及相关争议,请联系博主删除。如有错误、疑问和侵权,欢迎评论留言联系作者,或者关注VX公众号:Rain21321,联系作者。

评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不去幼儿园

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值