智能设计应用于视频广告，从鲁班的视觉引擎谈起

最新推荐文章于 2024-09-24 11:16:02 发布

shadowcz007

最新推荐文章于 2024-09-24 11:16:02 发布

阅读量593

点赞数 1

文章标签：人工智能鲁班智能设计设计

本文链接：https://blog.csdn.net/shadowcz007/article/details/80190890

版权

 
  最近云栖社区更新了一篇星瞳关于鲁班视觉引擎的介绍文章。 
 

视觉引擎的目标是可控视觉内容设计和生成，让 AI 做设计，使数字内容制造变得高质、高效、普惠、低成本; 终极目标是“所想，即所见” ，目前主要探索的应用：图像设计与生成视频编辑与生成图形建模与生成

 
  部分内容引自星瞳的ppt： 
 

鲁班视觉引擎yq.aliyun.com

 
  本文从3个方面谈谈智能设计与视频广告的结合： 
 

 
鲁班的图像设计与生成 
 

 
智能设计局限与突破 
 

 
1 应用设计大数据，“复制”设计 
 

 
2 特定风格下的算法驱动型设计 
 

 
3 基于图像的智能排版引擎 
 

 
4 基于pix2pix的生成设计 
 

 
视频的应用 
 

 
1 数字植入广告 
 

 
2 Cinemagraph 半自动生成 
 

 
3 Mask R-CNN 
 

1 鲁班的图像设计与生成

 
  鲁班目前的图像设计与生成，主要是 banner 类的图，核心是素材搭配求得最优组合。把 banner 拆解成背景、主体、装饰等，检索，然后组合。按图层拆解设计图，结构化设计数据，然后检索“库存”，按照输入的布局组装检索到的素材，评估及优化素材组装后的效果，直至最终生成最优的素材组装结果。 
 

 
  A 输入（显式输入）： 
 

 
  图片：商品主图 
 

 
  文案：化妆会场5折起…… 
 

 
  风格：运动 
 

 
  构图：左右 
 

 
  配色：黄绿 
 

 
  大小：1125*352 
 

 
  B 特征化： 
 

 
  image 
 

 
  text 
 

 
  style=sport 
 

 
  layout=LTRI 
 

 
  color=YG 
 

 
  size=3:1 
 

 
  C 规划： 
 

 
  16*16的特征图 
 

 
  D 行动： 
 

 
  256*256 
 

 
  E 调优： 
 

 
  1125*352 
 

 
  F 可视化 
 

2 局限与突破

 
  应用设计大数据，“复制”设计 
  。首先需要准备大量的打好标签的素材，设计结果取决于素材库的“库存”质量。设计过程被简化为组合素材的过程。所以对应的人类设计师水平是“ P5 ” ？设计是极富创意的过程，除了解决问题，利用设计可以使用的元素，创意性地提出解决方案，是高水平设计的价值所在。所以，鲁班也在尝试像素级生成以及根据主题生成文案，让 AI 更具有创造力。这方面的探索追求的是 
  设计的从0到1 
  。这里 mixlab 总结下智能设计目前的实现方式： 
 

2.1 应用设计大数据，“复制”设计

 
  从半结构化的设计图，例如 psd 文件、sketch 文件等，提取设计数据，包括图片、文案、布局、色彩，形成设计大数据，然后通过搜索引擎技术，枚举各种组合，并评分，最后得出最优结果。 
 

2.2 特定风格下的算法驱动型设计

 
  更像是算法驱动型的设计，把特定风格图像设计的设计规则算法化，直接应用算法于生成设计。例如 mixlab 近期尝试过的glitch 风格的字体生成器。 
 

2.3 基于图像的智能排版引擎

 
  微软研究院发的一篇论文，专注于杂志风格封面的版式设计，是基于图像的 saliceny map 做的自适应布局方案。Mixlab 在去年也专门更新了一篇文章介绍。 
 

2.4 基于pix2pix的生成设计

 
  只要是图片与图片之间的转换，我们都可以尝试 pix2pix 来生成试试。在《Pix2Pix与人工智能做设计》这篇文章， mixlab 介绍了 pix2pix 的一些探索应用： 
 

预测影片的下一帧，我们是不是可以把一张图片变成 GIF 图；去除马赛克，随意放大 BMP 图片，再也不担心精度不够了；通过手绘生成名画，比谷歌的 auto draw 先进了点，当然还有各种通过手绘生成的东西，比如猫、袋子、鞋子、人物肖像画；去除图片的背景，类似于抠图，也可以采用 pix2pix 的方法进行；生成配色方案，把配色当成图片，进行图片的生成，产生新的配色方案；从侧脸预测正脸，这样以后只要随便拍一张照片，都可以在三维空间中实时建模出来；

3 视频的应用：

 
  另外，基于图像的视觉引擎，可以升级为数字植入广告引擎，用于： 
 

3.1 数字植入广告

 
  Virtual Product Placement 
 

 
  简称VPP，又称“虚拟植入广告”、“Digital Product Placement”、“DPP”)，是指利用虚拟品牌植入（VBI）技术，将虚拟的、原视频中不存在的品牌符号融入影视中的广告方式，给观众留下印象，以达到营销目的。 
 

用深度网络检测植入广告的大概位置对位置进行优化精确广告位广告位跟随镜头移动，直至移出画面

 
2 Cinemagraph 半自动生成 
 

 
  输入固定镜头拍摄的视频，自动或仅用极少交互生成整体静止局部运动的可循环视频。 
 

 
  Cinemagraph 的案例 
 

 
  http://cinemagraphs.com/ 
 

 
  让我想起了去年mixlab创作了一款基于electron 的 cinemagraph 生成器。实现逻辑，可以参考开源项目： 
 

 
  https://github.com/yrevar/semi_automated_cinemagraph 
 

 
  核心思想是利用蒙板进行涂抹，把静态和动态的区域分离开来。 
 

3.3 Mask R-CNN

 
  以上2种应用，如果交由机器完成，都需要识别出图像里目标对象的边界，是一个图像分割问题，目前效果比较好的方案是Mask R-CNN。Mask R-CNN 是一个小巧、灵活的通用对象实例分割框架（object instance segmentation）。它不仅可对图像中的目标进行检测，还可以对每一个目标给出一个高质量的分割结果。 
 

 
  Fackbook 开源的： 
 

 
  https://github.com/facebookresearch/Detectron 
 

 
  Mask R-CNN 用于 gif 自动生成的开源项目： 
 

 
  https://github.com/burningion/automatic-gifs 
 

 
  综上，智能设计应用于视频广告的技术主要涉及： 
 

 
  视频广告=基于 Mask R-CNN 图像分割 + 图像设计与生成 
 

*

 
  关于公众号：

 
  本公众号定期更新 
  人工智能&设计&科技内容。谈点设计，敲点代码，偶尔创作点人工智能实验产品 
  。 
 

 
  *mixlab群友福利： 
 

 
  群里聚集了一批人工智能、设计、机器人、前端、后端、产品的跨界人才 
  。今天为群里的小伙伴发一则寻人启示，他的公 
  司 
  位于上海，主擅 
  建筑机器人 
  控制和设计集成，为地产和建造公司提供机器⼈建造解决方案。团队由多位美国、澳洲的海归博士和跨专业人才组成， 
  天使融资近千万 
  ，前景光明，求贤若渴。 
 

 
  高级前端开发工程师 
 

 
  职责描述 
 

 
  • 主要负责机器人控制平台的前端开发工作 
 

 
  • 能使用各种前端技术构建WebApp 
 

 
  • 熟悉WebGL / ThreeJS 等3D引擎者为佳，对三维图形技术在网页中的应用感兴趣者优先 
 

 
  • 有建筑三维软件如Rhino，Revit，Sketchup等使用经验为佳，有U3D开发经验的加分 
 

 
  • 配合后端工程师，高效得完成项目开发 
 

 
  • 密切配合设计师和产品经理理，保证用户的优质体验 
 

 
  • 解决各种浏览器的样式表和JS的兼容问题 
 

 
  职责要求 
 

 
  • 两年以上工作经验，熟悉前后端分离的开发模式 
 

 
  • 精通HTML5 / CSS3 / JavaScript，能独立完成JavaScript的编写，调试和优化 
 

 
  • 熟悉WebGL / ThreeJS，或有使用其他WebGL引擎的工作经验者优先考虑 
 

 
  • 熟悉React Native 等一种或多种框架，能设计编写常见的WebApp为佳 
 

 
  • 拥有良好的代码习惯，逻辑思维清晰，具有愿意挑战困难的研发精神 
 

 
  • 对前端项目工程管理有一定了解，熟悉Gulp，Webpack等工作流管理以及打包工具 
 

 
  待遇 
 

 
  工资：15 - 25K ( 
  有能者面议 
  ） 
 

 
  简历邮箱: hydemeng@roboticplus.com 
 

 
  或者直接联系mixlab也行。 
 

shadowcz007

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫