论文学习
文章平均质量分 60
Hym_eric
github: https://github.com/HymEric
展开
-
2021_Image-to-image Translation via Hierarchical Style Disentanglement_CVPR
概要本文是一片针对人脸进行属性编辑的论文,针对从CycleGAN提出后,图像翻译面临的最大的两个问题就是扩展性(同时处理多种篡改)和多样性(生成不同的结果),然而,一直没有一个很好的方法,可以兼顾扩展性和多样性的同时,又能使得这种篡改满足预期。例如,对于人脸属性篡改任务,我们想要给人脸加上刘海,可是却改变了发色或是背景,再例如,我们想要给人脸加上眼睛,结果竟然性别和年龄也改变了。下面是最新模型StarGANv2的结果:针对以往方法不能单独控制独立的属性的缺点,设计了层级结构模型HiSD,同.原创 2021-06-23 14:16:33 · 1507 阅读 · 0 评论 -
2019_VideoBERT-A Joint Model for Video and Language Representation Learning_ICCV
模型:看上出很简单,就是利用了bert的模型,输入输出不仅仅是文本,将视频和文本相结合一起自监督训练,不仅可以得到单文本或者单视频内部的关系,还可以得到文本和视频的对应关系。文中强调了学习的是一种high-level的语义,和之前的视频表征学习不同,使用了三个现成的方法,ASR语音转文字(Youtube自带的一个API接口)、vector quantization(VQ)将视频转化为visual words和bert模型。主要贡献就是提出了这么一种自监督训练视频特征的方法。这里的输入前面的CLS原创 2021-06-23 09:14:34 · 322 阅读 · 0 评论 -
2019_Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval_CVPR
Motivation以往的跨模态检索工作都是一对一映射关系,对于语义不明或者多语义的文本和视觉图像/视频效果不好,下图是一个例子,文本中表达的含义和视频中表达的含义非常模糊的,再比如一句话只是描述了图像中某一个区域,作者提出使用一对多的方法,将单例(文本或者图像视频等)映射到多级特征中,分成K个表示,就是一对多的关系建模,并且通过local和global的方式去构建模型,对损失函数也做了相应修改,达到了更好的结果,并且提出了一种具有ambiguous特点的数据集MRW,这种数据集是:视频中是对一句话文本原创 2021-06-23 09:07:48 · 366 阅读 · 0 评论 -
2020_Deep Image Compositing_arXiv
这篇工作做的是图像合成,是有监督的方式整体有三个网络,一个根据显著性物体的网络先做分割,之后输入到refinement 网络进行优化mask,之后利用双支路编解码模型得到目标图像。并提出了一种针对双流模型合成任务的triplet数据对增强方法,先在简单数据集上训练,之后根据简单数据fg和随机复杂背景得到更难训练的样本形成一种self-taught的训练模式。主要的创新点在于提出的数据增强策略,(其实就是用数据提升效果),展示的效果很多,其他并没有特别突出的地方基本都是已有的方法借...原创 2021-06-23 09:01:37 · 442 阅读 · 0 评论 -
2019_Dual Encoding for Zero-Example Video Retrieval_CVPR
Motivation现存的视频检索的工作都是concept based的方法,从视频和文本中寻找各自对应的概念,在现实场景中比较难以使用,作者提出concept free方法,加入多种特征的双塔模型,简单高效。Contribution提出一个多级的编码方式,映射到同一空间渐进式地学习局部、全局和时序的特征不错的效果Method如图,视频和文本的模型差不多,对于视频先用预训练好的模型提取特征,通过平均池化得到全局特征,通过双向GRU得到时序特征,通过双向G...原创 2021-06-23 08:51:44 · 321 阅读 · 0 评论 -
2006_Color Harmonization_SIGGRAPH
这是一篇关于色彩和谐化的工作,可以根据图片的HSV空间中H色相的值进行改变颜色,使得原图更加美观。文中使用色相环,预定义了8种模板模板中的中心位置说的是扇形区域的中间那条线是在哪个地方(顺时针偏移),默认垂直向上的是0,eg 0.25 则是说的中心线在正东方向。而宽度是不变的,也就是灰色的扇形区域的大小是不变的,变得就只是中心线的位置,相当于在绕着中心点旋转。这个是相当于损失函数,里面的||*||代表了弧长,意思是让像素的色相值尽可能接近模板本身,算法思路是,先固定模板,然.原创 2021-06-23 08:43:24 · 234 阅读 · 0 评论