导论-视觉AI技术应用探索
视觉生产技术——探索与应用
定义和分类
视觉生产定义
通过一个或一系列视觉过程,产出新的视觉表达
视觉生产分类
- 生成:从0到1,从无到有
- 拓展:从1到N
- 摘要:从N到1
- 升维:从An到An+1
增强/变换:从A到B
插入/合成:A+B=C
擦除:A-B=C
视觉生产通用框架
- 请求(输入)
- 分类(生产类型)
- 服务(生产引擎)
- 响应(输出)
视觉生产五个关键维度
- 可看(美学)
- 合理(逻辑)
- 多样(丰富性)
- 可控(满足预期)
- 可用(有价值)
精细理解——寻微入里
分割抠图理解
- 识别:知道是什么
- 监测:识别+知道在哪儿
- 分割:识别+检测+知道每一个像素是什么
分割抠图难点
前提:数据规模大,质量高
- 复杂背景
- 遮挡
- 发丝精扣
- 透明
- 多尺度/目标
- 边缘反色
分割抠图思路
- 复杂问题拆解:粗mask估计+精准matting
- 丰富数据样本:设计图像mask统一模型
分割抠图模型框架
人像抠图
头、头发、脸、五官
物体抠图
场景抠图
视觉生产——从无到有
视觉生成-鹿班
AI设计服务
视觉生成框架
- 理需求
- 定草图
- 选状态
- 调细节(粗粒度->细粒度)
- 生成图
- 评好坏
电商设计
- 照图生图(临摹)
- 个性化设计(千人千面)
智能美工
- jpg->psd
- psd->n*psd
- psd->png
短视频生成框架
视频摘要
120s原视频-60s摘要-30s摘要-15s摘要
视频封面
质量审核、内容分析与图像增强,jpg或gif
视觉编辑——移花接木
视频植入
广告植入
- 电视剧植入
- 电影植入
- 综艺植入
动态检测分隔
边界、alpha
视频内容擦除
- 字幕擦除
- logo擦除
- 广告擦除
- 场景文字擦除
- 人体擦除
画幅变化
4:3->16:9->20:9
内容补全
图像尺寸变化
海报变化,长宽变化
视觉增强——修旧如新
模糊变清晰
老照片修复
高动态范围图像(High-Dynamic Range,简称HDR)
低动态范围图像(Low-Dynamic Range,简称LDR)
分辨率提升
视频插帧
HDR色彩扩展
风格迁移
风格化处理,eg:油画
色彩拓展
色彩搭配、色系选择
视觉制造——由虚入实
核心逻辑
数字商品->实体商品
服装几何生成
材质工艺
视觉迁移及融合
多样性拓展
纹理、风格化
2D3D融合
2D->3D
3D->2D
- 几何一致性计算
- 3D朝向
- HDR光照估计
- 融合渲染
视觉智能开放平台——万剑归宗
利用API
在这个人工智能已经普及的时代,各行各业都充斥着AI的身影。大部分人认为人工智能起点高,入门难,想要使用AI服务又无法独立完成编写,阿里云视觉平台是基于阿里巴巴视觉智能技术实践经验,面向视觉智能技术企业和开发商(含开发者),为其提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术的应用能力的综合性视觉AI能力平台。开发者可以通过阿里云视觉平台提供的通用且标准化的接入方式,快速接入及使用阿里云视觉平台提供的包括人脸人体、文字识别、商品理解、内容安全、图像识别、图像生产、分割抠图、视觉搜索、目标检测、图像分析处理、视频理解、视频生产、视频分割13个类目多个API能力。本期直播将带你实战讲述如何使用阿里云视觉平台API快速开发在线视觉AI平台,让你认为遥远的AI能力变得触手可及!
加入高校计划
本人是参加的达摩院特别版-视觉AI训练营第二期
训练营里面的小哥哥小姐姐说话超级好听,我超喜欢这里!