论文阅读--CLIPasso

__如果

于 2024-05-25 19:51:17 发布

阅读量380

点赞数 6

文章标签：论文阅读 CLIP 人工智能深度学习多模态

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73202283/article/details/139202177

版权

让计算机把真实图片抽象成简笔画，这个任务很有挑战性，需要模型捕获最本质的特征

以往的工作是找了素描的数据集，而且抽象程度不够高，笔画是固定好的，素描对象的种类不多，使得最后模型的效果十分受限

之所以用CLIP是因为它可以不管图像的风格，都能把物体的视觉特征编码的特别好

本模型不仅是生成简笔画，还可以通过控制使用笔画的多少实现不同程度的抽象

在白纸上随机初始化曲线，最后不断训练成简笔画

一个笔画1~4个点，点在空间中是二维的(x,y)，模型训练更改四个点的位置，从而改变笔画的形状

learned parameters就是初始化的笔画

Rasterizer光栅化器是可导的，是图形学那边的工作

这篇文章的贡献在于前面如何更好的初始化，后面如何选择损失函数

像ViLD一样，在这里的ground truth是CLIP模型蒸馏，无论是原图还是简笔画，如果它们描述的是同一物体，那么最后得到的特征应该是差不多的，也就是Ls语义损失

但仅有语义不够，比如马头的位置反了，但还是马，这是语义相近，但是和原始输入图像就不匹配了，因此需要在几何形状上对模型的输出进行限制，即Lg。用前几层去算几何形状的loss，因为前几层语义空间较低，更关注形状的特征

做了几个实验后发现初始化位置很重要，作者提出saliency的方式：把图片扔进训练好的ViT，把最后一层的多头自注意力取一个加权平均，做成一个saliency map，然后看哪个区域更显著，到显著的区域上去采点

局限性：

当图像有背景的时候效果不好；笔画数是超参，无法自行调整

关注

6
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。