鲁班,视觉生成引擎的应用

原创 2018年04月14日 00:00:00

云栖君导读:本文介绍了视觉生成的现状,智能设计的框架和流程、应用案例及未来前景。通过本文的学习,可以对视觉生成有基础性的认识,了解行业的现状以及未来的发展趋势。


演讲嘉宾简介:


谢宣松(星瞳),阿里巴巴机器智能技术实验室资深算法专家,专注于视觉生成、智能医疗、图像搜索、信息抽取等方面技术研发和落地;阿里巴巴智能设计(鲁班)的创始成员和技术负责人,医疗影像智能诊断方向负责人,图像搜索拍立淘的早期创始成员。


本次直播视频精彩回顾地址:http://click.aliyun.com/m/46060/


本节课代码及讲义下载地址:http://click.aliyun.com/m/46066/ 或点击左下角阅读原文进入下载!


本次分享主要分为以下几个部分:


  • 定义、目标和愿景

  • 设计行业现状

  • 使用场景

  • 技术框架和生产流程

  • 关键算法

  • 业务进展

  • 案例展示

  • 鹿班

  • 前景展望


一、定义、目标和愿景


视觉生成的定义:可控视觉内容设计和生成,聚焦满足用户、场景需求的数字视觉内容制造,包括针对图像、视频及图形的增强、编辑、渲染、生成、评估等视觉内容设计与制作。用技术赋能和改革设计、广告及数娱行业。


目标:可控视觉内容设计和生成,让AI做设计,使数字内容制造变得高质、高效、普惠、低成本;


愿景:所想,即所见。


640?wx_fmt=png


视觉生成主要分成三个方向。第一,针对非结构化的图像,如图像。第二,针对结构化的图形。第三,针对视频。


640?wx_fmt=png


二、设计行业现状


视觉生成较年轻。起初,基本都是通过人工方式完成。小到海报或毕业设计封面的设计这样的小需求,大到阿里巴巴中海量商家的投放渠道及效果这样的大型需求都与其相关。从业人员数量庞大,市场与广告、商家关系紧密,市场容量非常大。


从技术上说,近几年,大家常提到供给侧改革,以前的供给侧基本都是通过人或工具来形成图像、视频等,但这样有很大的局限性,包括:


  • 效率低成本高

  • 数据利用率低,比如去年双十一和今年双十一由于主题不同,需要全盘重做。

  • 无法在线化,从提出需求到得到结果无法做到实时。

  • 难以上下文相关,设计师不会结合用户的个性化需求,形成与上下文相关的结果。


而在消费端,对个性化、精准度、实时性有很高的需求。因此,在供给和需求之间还存在差距。在AI行业中,IN的多:识别、理解、搜索。OUT的少:生成、融合还限于学术圈,系统性落地工程、可商用的产品没有。


因此,“The best way to predict is to create”。


640?wx_fmt=png


三、使用场景


视觉生成引擎的使用场景大致可抽象成下图。以显式输入而言,用户可以输入标签需要的风格、色彩、构图等,或者输入一个例子,或者进行一些交互的输入。除显式输入之外还可以有隐式输入,比如人群信息、场景信息、上下文信息等。总的来说,输入可以是千变万化的,但通过规范化之后就会减少变化。


640?wx_fmt=png


对视觉生成引擎来说,它要求输入是规范化的。但在输入前,可以加入各种交互方式,如自然语言处理,语音识别等,将其转化成规范化输入。最后输出结构化信息或可视成图。


640?wx_fmt=png


四、技术框架和生产流程


其技术框架如下图左侧。首先对视觉内容进行结构化理解,如分类、量化、特征化。其次通过一系列学习、决策变成满足用户需求的结构化信息即数据,最后将数据转化成可视的图像或视频。这一框架依赖于大量的现有数据。其核心是一个设计内核。同时,引入效用循环,利用使用后的反馈来不断迭代和改进系统。


其生产流程分成六个步骤,如下图右侧所示。首先用户提出需求,将需求特征化转变成系统可以理解的结构化信息。其次将信息进行规划得到草图。有了粗略的草图后再将其转变成相对更精确的图,然后调整细节,最后通过数据可视化形成最终的图。


640?wx_fmt=png


五、关键算法


下面介绍一些关键算法。我们希望基于下图最左的耐克鞋生成最右的图。先通过规划器得到草图,再通过强化学习获得相对细致的结果,再通过对抗学习及渲染算法得到图片,再通过评估器进行评估,最后形成业务闭环,其中会包含联合特征及多维度检索算法等。


640?wx_fmt=png


基本上,处理的第一步是将图片中的信息结构化,这也是与现有的识别理解技术结合最紧密的地方。其中的难点和重点包括,对图像中多目标的识别、遮挡和互包含情况如何得到分割的信息等。


640?wx_fmt=png


有了结构化信息之后,需要对信息进行量化。可以量化成特征或量化图。量化过程中会包含很多信息,比如主题风格、布局配色、元素种类、量化空间等。有了这些信息后可以在主题、种类、风格、视觉特征大小位置上,量化成各种码,用相对有限的特征来表达无限的图。


640?wx_fmt=png


下一步是通过用户的输入,得到一个相对粗略的结果即草图。目前主要使用的是深度序列学习。从图像角度,首先选定一个点的像素颜色再选择位置,再迭代进行操作,最后形成一张图。规划器模拟的就是这个过程。本质上预测过程是一棵树,当然也可以拆成一条条路径。为了简化,可以分成几步进行,比如空间序列,视觉序列。最后形成量化特征模型,主要应用的是LSTM模型。它把设计的过程转化成基于递归、循环的过程。


640?wx_fmt=png


得到草图后,利用行动器将草图细化。如果将图中的每个元素看作一个Agent,那么它将有若干个可选的行动空间。


640?wx_fmt=png


假设一张图中有20个元素,每个元素在视觉上有多种可选的行动空间,由其组合成的可选行动空间非常庞大。我们有很多trick可以解决这一问题,比如在空间上,只允许在有限范围内进行变动,且行动方向有序,即状态有序,行动有限。


640?wx_fmt=png


下一步是如何衡量结果的好坏。图像的评估相对比较主观,主要可以从美学和效果两方面来评估。美学角度可以包括是否对齐、色系搭配是否合理、有无遮挡这些较低级别的判断标准,以及较高级的,比如风格是否一致,是否切合主题。从效果上,产品投放后是否会在点击率等方面实现提升。最后将多个指标形成对应权重并形成多个DeepLR联合模型。


640?wx_fmt=png

但在衡量结果之前,需要形成像素级别可见的图。这里有以下几种构造器分类,包临摹、迁移、创造、搭配与生成。


640?wx_fmt=png


前面介绍了,如何通过用户的需求形成可见的图。后续还需要进行投放和反馈并进行优化,形成效用外循环。这样才能使得系统效用不断得到提升。


640?wx_fmt=png


六、业务进展


下图是该系统在阿里巴巴内的业务进展。


640?wx_fmt=png


下面是一些实际的例子。


640?wx_fmt=png


在这个系统中也加入了大量的人的信息,知识图谱。设计师在进行设计时都会存在一些共性的东西,包括在色彩、复杂度、风格、结构上的应用,这与自然语言处理有些相似,但自然语言处理方面的知识图谱已经非常成熟。


640?wx_fmt=png


在影响力方面,鲁班作为业界首创的AI设计系统,成为集团双十一的一个AI协同典型案例,获得了大量的报道。在其中,运用了对抗学习,该技术入选了MIT018全球十大突破性技术。


七、案例展示


下面是各种风格和质感的效果图展示。


640?wx_fmt=png


从多样性看,生成的图片可以是多主体、多主体、多配色和类型自适应的。


640?wx_fmt=png


同时,也可以生成多种尺寸的图片。


640?wx_fmt=png


八、鹿班


鲁班这款产品在集团内得到了很好地应用效果,并通过阿里云服务一些外部商家,后期鲁班可能会改名为鹿班。


640?wx_fmt=png


九、前景展望


上面所说的基本都是平面设计层面的。但在视频和图形上是另一片蓝海。如果说人工做一张图片的成本比较高,而制作视频的成本则远高于图片。


640?wx_fmt=png


下图是目前的行业市场空间展示。


640?wx_fmt=png


下图是在视频中进行广告植入的案例。需要检测视频中哪个位置适合插入广告,对位置进行优化。


640?wx_fmt=png


640?wx_fmt=png


下图是网球赛中将阿里巴巴的品牌logo无缝投影到赛场中。


640?wx_fmt=png


为了强调视频中的一部分,可以生成整体静止局部运动的可循环视频。


640?wx_fmt=png


在游戏领域中,现在的游戏场景需要大量的美工、设计师等。如果希望生成的结果能满足多样性,那么纯靠人工进行需要大量的成本,并且由于游戏的生命周期通常较短,因此批量高效的场景制作是一个很有前景的应用。


640?wx_fmt=png

640?wx_fmt=png


通过视觉生成引擎,我们希望能基于用户的所想,使得一切皆可生成。长远的目标就是所想,即所见。


点击左下角阅读原文进入下载讲义PDF !

end

【干货合集】Java其实很好学,但你需要知道在“爪哇”的世界里“你究竟在哪?”

阿里巴巴陈博兴:单天翻译词量超过千亿的秘密

如何避免HBase写入过快引起的各种问题

更多精彩

640?wx_fmt=jpeg

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/eo63y6pKI42Ilxr/article/details/79947901

鲁班,视觉生成引擎的应用

云栖君导读:本文介绍了视觉生成的现状,智能设计的框架和流程、应用案例及未来前景。通过本文的学习,可以对视觉生成有基础性的认识,了解行业的现状以及未来的发展趋势。演讲嘉宾简介:谢宣松(星瞳),阿里巴巴机...
  • eo63y6pKI42Ilxr
  • eo63y6pKI42Ilxr
  • 2018-04-14 00:00:00
  • 53

模型、框架及应用:深度学习系列16讲

云栖君导读:深度学习爱好者看这里!10余位人工智能专家汇聚一堂,带来《模型、框架及应用:深度学习系列16讲》免费课程!帮你3天掌握深度学习一手干货!3月13日讲座议程 机器学习基础 时间:...
  • eo63y6pKI42Ilxr
  • eo63y6pKI42Ilxr
  • 2018-03-12 00:00:00
  • 1039

AI设计师“鲁班”进化史:每秒制作8000张双11海报,没有一张雷同!

在过去,每年双11,设计师们都会开启狂加班模式:做海报、改文字、换商品、调设计、换 banner,每个设计师对接几个运营人员,富士康流水线一样的重复性工作。一年双 11 下来,完成上亿张海报。 ...
  • b0Q8cpra539haFS7
  • b0Q8cpra539haFS7
  • 2017-11-08 00:00:00
  • 1682

鲁班图片算法

【原文地址 点击打开链接】 前言 Luban是图片压缩工具,通过参考或者自创压缩规则推求极致的压缩效果 目前的版本压缩效果主要参考微信。因为微信用户量最大,如果压缩后的图片越接...
  • wenyiqingnianiii
  • wenyiqingnianiii
  • 2016-09-08 11:18:43
  • 3348

【干货合集】都说“精通C++”是个伪命题,那么本文只求让你深入了解一下这门编程语言

云栖君导读:正如C++的创造者Bjarne Stroustrup曾经说过的“我特别讨厌语言的设计者把自己的喜好强加给用户”,所以C++为了不限制你的想法,于是也就变成了现在这个样子,本文精选了云栖社区...
  • eo63y6pKI42Ilxr
  • eo63y6pKI42Ilxr
  • 2018-04-15 00:00:00
  • 25

机器学习研究人员需要了解的8个神经网络架构

云栖君导读:本文简要讲述了8种机器学习架构,希望可以给大家带来帮助。在这篇文章中,我想与大家分享8个神经网络体系结构,我相信任何一个机器学习的研究人员都应该熟悉这一过程来促进他们的工作。为什么我们需要...
  • eo63y6pKI42Ilxr
  • eo63y6pKI42Ilxr
  • 2018-04-16 00:00:00
  • 18

上海鲁班软件 笔试 面试 回忆

2011.5  去上海鲁班软件笔试和面试,笔试还行,面试时两个面试题对我一阵狂问,基础知识薄弱的问题就显现出来了,被鄙视了,丢脸啊丢脸。问到最后都已经不想他们再问了,问得太深很多东西都不知道,到最后他...
  • a117653909
  • a117653909
  • 2011-06-03 10:21:00
  • 3694

Luban(鲁班)--图片压缩使用以及源码解析

Android图片压缩——Luban
  • seemygoandroid
  • seemygoandroid
  • 2017-04-27 17:23:59
  • 2021

创意视觉应用︱基于深度学习的CVaaS计算机视觉即服务案例(Computer Vision as a Service)

CVaaS 计算机视觉即服务的理念介绍 观点来源于:极视角科技联合创始人 罗韵 CVaaS 就是 Computer Vision as a Service, 我们把 CV 的部...
  • omnispace
  • omnispace
  • 2018-01-18 16:18:31
  • 227

Android图片压缩及各种图处理

> javaCV+javaCPP+FFmpeg的使用??   javacv的项目最早是为java平台封装了机器视觉领域的开源库,后提供Android支持。其中的库包含OpenCV, FFmpeg, ...
  • ShareUs
  • ShareUs
  • 2017-04-15 21:51:05
  • 1750
收藏助手
不良信息举报
您举报文章:鲁班,视觉生成引擎的应用
举报原因:
原因补充:

(最多只允许输入30个字)