多粒度在研究中的应用

FontDiffuser: One-Shot Font Generation via Denoising Diffusion with Multi-Scale Content Aggregation and Style Contrastive Learning

存在的问题
现有的字体生成方法虽然取得了令人满意的性能,但在处理复杂字和风格变化较大的字符(尤其是中文字符)时,仍会出现严重的笔画缺失、伪影、模糊、结构布局错误和风格不一致等问题,如上图4所示。

原因分析

  • 大多数方法都采用基于 GAN 的框架,由于其对抗训练的性质,可能会出现训练不稳定的问题。

  • 这些方法大多只通过单一尺度的高维特征来感知内容信息,而忽略了对保留源内容(尤其是复杂字符)的细粒度细节

  • 许多方法利用先验知识来帮助字体生成,例如字符的笔画或部件组成;然而,对于复杂的字符来说,获取这些细粒度信息的成本很高;

  • 在过去的方法中,目标风格通常由一个简单的分类器或判别器来进行特征表示学习,这种分类器或判别器很难学习到合适的风格,在一定程度上阻碍了在风格变化较大时的风格转换。

在这里插入图片描述
图1 在内容编码器中不同尺度的特征图
在这里插入图片描述

VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection

将视觉语言模型应用于弱监督视频异常检测

简述:」VadCLIP是利用对比语言-图像预训练(CLIP)模型进行弱监督视频异常检测的新方法。它通过直接利用冻结的CLIP模型,无需预训练和微调,简化了模型适应过程。与现有方法不同,VadCLIP充分利用CLIP在视觉和语言之间的精细关联,采用双分支结构。一个分支进行粗粒度二分类,另一个分支则充分利用语言-图像对齐进行细粒度分析。通过双分支结构,VadCLIP实现了从CLIP到WSVAD任务的迁移学习,实现了粗粒度和细粒度的视频异常检测。
在这里插入图片描述

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值