【阿里云高校计划】阿里云视觉AI训练营 DAY1 AI视觉生产技术简述

本文链接：https://blog.csdn.net/qq_27820913/article/details/106558786

写在前面

我是一个没有什么编程经验的小白，最近才刚刚报名了这个阿里云视觉AI训练营，由此开始时长为五天的历练，虽然我个人认为五天的时间几乎是学不到什么内容的，但是开营后我逐渐相信在这种氛围下能够带动起已经许久未动的大脑，在此认识各路大佬和朋友，并向他们交流学习对我来说是一件有幸福感的事。
下面就让我们开始第一天的学习吧~

定义和分类

定义

定义：通过一个或一系列视觉过程，产生一个新的视觉表达
视觉表达：人或机器能感知的图像视频
输入（素材/参数）——处理（视觉生产）——产出（成品）

分类

生成：从无到有
扩展：由一个扩展出更多的近似物
摘要：由多个一样/近似的素材取其主要部分摘要
生维：为输入的素材提升维度（时间维度，空间维度等）

增强/变换：对原本的素材进行增强或者变换使其变为另外一个素材
插入/合成：对两个素材进行插入或合成使其变为另外一个素材
擦除：对两个素材进行剪切使其变为另外一个素材

通用基础框架

输入（请求）>选择生产类型（分发）>视觉生产引擎（服务）>输出（响应）
在这里插入图片描述

五个关键维度

规范
重要性由下往上
1、可看性：满足基本的视觉或美学表现
2、合理性：内容的逻辑性
3、多样性：结果的丰富性
4、可控性：提供可供用户使用的抓手
5、可用性：带来经济价值

分割抠图

识别：知道是什么
检测：识别+知道在哪
分割：识别+检测+知道每一个像素是什么
这是一个循序渐进的过程，每一步都是后续操作的必要前置步骤
只有先理解后，才能生成

难点

背景复杂
遮挡
发丝精抠
边缘反色
透明材质
多尺度/多目标
因为数据本身的严重不足，导致了标注成本高

解题思路

1、对复杂问题拆解
2、丰富数据的样本

模型框架

1、mask粗分割
2、mask质量统一
3、估计精确alpha

部分扩展

人像抠图：人：头——发——脸提取动态活动的人物
物体抠图：细节问题等
场景抠图

视觉生成

以平面设计图像生成平台——<鹿班>为例

框架流程

1、提取用户的需求，作为可控性的抓手
2、获得草图，粗理图
3、粗理图优化/增强得到细理图
4、根据用户的需求进一步调整，得到成品图

鹿班电商设计

照图生图：通过参考原图的风格，布局等信息和其他特征学习并迁移到目标数据上。仿照原图。

个性化设计：通过不同的需求来进行多样化的生成。

鹿班场景智能美工

场景智能设计
1、人工智能还原学习
通过输入一定量的图片作为学习源来进行插入或合成操作，输入整图（JPG,PNG等）来还原PSD的多图层设计。
2、模板创作机器人
通过学习还原来的PSD进行扩展操作从而生成更多PSD文件模板以进行合成。
3、图片合成机器人
通过已创作的模板来进行合成，将PSD文件输出为成品图。

场景智能美工
输入：营销场景或原始素材
过程：调用API
输出：营销图片

以短视频设计生成平台——为例

框架流程

1、准备素材（场景选择、关联商品、素材准备、参数设置）
2、视频算法（可以使用编辑器微调。核心）
在这里插入图片描述
3、渲染合成（将已编排好的视频进行视频合成后渲染出成品）
4、投放上传平台

视频摘要

将生成的视频或原已有的视频或多个视频进行关键摘要（如15秒摘要，30秒摘要，60秒摘要等）

视频封面

图像增强：在内容理解的基础上对图片进行裁剪和组合。
内容分析：通过AI的分析功能来对全视频进行内容分析和挑选。
质量审核：将模糊、曝光等低质量图像进行过滤。

完成以上一系列操作后来抓取生成多帧静止图或动图。随后可以进行各个平台的分发。

视觉编辑

视频植入

PS:我个人认为这个功能比较有意思
场景：电视剧植入、电影植入、综艺植入等。
可以将广告内容与宿体内容本身不太符合的广告以没有太多【违和感】的形式植入，使广告的植入范围变得更广，大大提升了广告的植入效率，并且不会给用户造成太大的反感。

功能：
挖掘视频核心价值：提升广告的曝光渠道，创新的广告形式，并可以提升用户的体验。

扩大植入覆盖范围：通过自动化处理视频内容来挖掘大量短视频/UGC内容的广告价值来扩大植入内容的覆盖范围。

提升植入效果效率：一定程度的代替手工后期，缩短了植入周期并降低人力成本，给广告招商留出了充足的时间，且不需要修改与流出媒资。

流程
分镜检测——{广告位检测——广告位跟踪——遮挡检测}（关键环节）——素材匹配（场景标签）——光影渲染

处理位置，透视、尺寸、遮挡、时间的实现难度较高。
在这里插入图片描述

植入位检测与定位

空白区域自动检测
移除屏幕遮挡等复杂情况的跟踪

动态检测分割

高精度静态分割再由静态转为动态
通过分割出部分进行跟踪

视频内容擦除

应用技术：字幕擦除、台标擦除、广告擦除、场景文字擦除、人体擦除
核心挑战与亮点：粗定位——精分割——像素填充——在线训练

示例模型：
在这里插入图片描述
PS:现在啥都看不懂

文字擦除

应用：去除字幕（样式相似）、去除原生文字（样式无限丰富）、去处台标（标识有限）、去掉广告（区域大，标识无限）

这个功能的应用地方应该很多，其实际的可操作空间可能会更广。

画幅变化

主体检测分割+背景拉伸+背景补全+智能构图裁剪+超分辨率
目的：保留更多的有效画面
应用范围应该很广，因为现在为了适配各种各样的设备对视频的要求也更多（电视，电脑，平板，手机等），普遍依靠播放平台本身的适配来解决（范围拉伸，范围裁剪），如果使用智能画幅变化来处理的话就能解决这种问题，提升用户的体验，现在的视频平台很多，这个功能日后的需求应该会非常多。

图像尺寸变化

和上面的应用范围有重叠的地方，但更多应该是提高在网站或现实的应用范围，比如一份广告，同时植入在网站上，在网站上又分为banner广告，侧面广告，小窗广告等。而在现实中可以植入在地铁，书签，商场等地方。多样化提高使用范围。

视觉增强

核心技术：人脸增强、去噪声、通用场景超分、LDR生HDR、倍频、去划痕、
符合应用技术：人脸修复，标清转高清、LDR-HDR互转、4K重生、老片修复、端上实时增强
核心挑战：分辨率、帧率、色彩

这个功能在当下的需求就已经很多了，前景巨大。

人脸修复增强

目标：对人脸进行细节修复增强，应用范围很广，除了常规的应用外，还可以应用到寻人，日后可能也会应用到刑侦方面。

渲染图/视频超分

在这里插入图片描述
应用：通过渲染低分辨率的视频/图像后再对图片/视频进行超分处理，可以一定程度节省获得成品的时间。
此外还可以对模糊的图片或者视频进行处理，实现获得更清晰的视频或者图片需求。（甲方爸爸的需求终于实现了）

视频插帧

我有学习过部分视频剪辑和后期的知识，但是连入门的程度都不算。
我们大部分体验过视频比较卡，不流畅的场景，有时候是设备因素，有时候是人为因素或者软件因素。或者大部分游戏玩家在游戏运行不畅的时候会感觉游戏画面卡顿掉帧。

通过该功能来实现使视频更加流畅。
展望未来：不知道该技术能够应用到动漫制作领域，如果能够应用的话，能够大幅减少画师的负担。

HDR色彩扩展

没能理解，感觉类似自动调色或者补充色域？

风格迁移

在这里插入图片描述
通过智能学习后提取视频/图片的风格而来生成一个智能的的“滤镜”（保留该保留的地方和细节）

视觉迁移-颜色拓展

给定目标色系——给定参考图——自动模式
智能更换配色，获得更加多样化的选择，也能避免一定程度的审美疲劳。

视觉制造

实体设计制造

效率低：多次打样，多次沟通，沟通本身的效率也不高。
协同差：设计、营销、生成脱节、倒置。
定制难：无法实现柔性生产，多样化能力几乎没有。

核心逻辑

在这里插入图片描述
降低人力成本，大幅提高多样化能力。

包装几何生成

包装的自适应纹理的几何生成
输入材质/纹理/关键元素>生成包装渲染图>通过视觉拓展的方式进而实现多样化生成更多的包装样式>生产

服装几何生成

同上。
2D板片>3D板片>3D服饰>成衣效果>试衣效果

材质工艺

对输入进行扩展和增强而获得更多的样式，以提升多样化的能力。

视觉迁移及融合

通过图片来获得和恢复纹理，随后进行扩展和升维操作，通过迁移来生成试板图用以预览。
原理应该和风格迁移类似。

多样性扩展

在这里插入图片描述
分割素材>提取>智能搭配>预览
操作更加复杂，但是应用前景巨大。

2D3D融合

几何一致性计算>3D朝向估计>HDR光照估计>融合渲染
用来生成更多样式的图片，提供及其强大的多样性，大幅提高生产效率。

视觉智能开放平台

API

定位

聚能力>搭平台>建生态>树品牌
在这里插入图片描述

视觉智能开放平台官网

vision.aliyun.com

能力分布

在这里插入图片描述
暂时是免费的，可以都试试。

特点

在这里插入图片描述

一站式能力选择

在这里插入图片描述
将来商业化的展望，我相信不论是对于学习者还是目标方都是十分的美好的。

总结

经过今天的学习，大致的对视觉AI有了个初步的了解，虽然很多地方我都看不懂，这期视频虽然只有四十分钟，但是我却用了四个小时的时间来学习和做笔记，我不知道这样是否算是效率低下无意义努力，但是在这四个小时时间内我确确实实的到达了挺久没进入过的心流状态。以前学习总是断断续续，课可能还没听十分钟就会跑去做别的事，而这种边看边做笔记的方式或许效率不高，但是却确确实实是让我稳定在学习中的一个方法。
AI看起来复杂，学习起来也是复杂的，但是如果能实现那些强大而令人惊叹的功能，我想这种程度根本不算什么。AI能够作用到的商业范围也十分的广泛，部分功能让我觉得是“无稽之谈”，比如在视频的各处植入毫无违和感的视频，我是无法想象AI能够完成那些人工也无法完成的任务的，但是今天的学习让我觉得AI或许会取代今后的大部分人的职位。我的理解是AI虽然像是一个一无所知的婴儿，但是它们的效率是我们远远无法比得上的，特定的“脑补”的能力——想象力。我觉得实现这些功能的过程或许多少都是个折磨人的过程，但是其结果带来的反馈和幸福感依然让我向往。

最后附上阿里云高校计划的二维码，欢迎各位小伙伴们共同进步交流~