多粒度在研究中的应用

erdaidai

已于 2024-01-03 11:47:35 修改

阅读量612

点赞数 6

分类专栏：论文精读文章标签：人工智能

于 2024-01-03 11:46:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/erdaidai/article/details/135359809

版权

论文精读专栏收录该内容

6 篇文章

订阅专栏

FontDiffuser: One-Shot Font Generation via Denoising Diffusion with Multi-Scale Content Aggregation and Style Contrastive Learning

存在的问题
现有的字体生成方法虽然取得了令人满意的性能，但在处理复杂字和风格变化较大的字符(尤其是中文字符)时，仍会出现严重的笔画缺失、伪影、模糊、结构布局错误和风格不一致等问题，如上图4所示。

原因分析

大多数方法都采用基于 GAN 的框架，由于其对抗训练的性质，可能会出现训练不稳定的问题。
这些方法大多只通过单一尺度的高维特征来感知内容信息，而忽略了对保留源内容(尤其是复杂字符)的细粒度细节。
许多方法利用先验知识来帮助字体生成，例如字符的笔画或部件组成；然而，对于复杂的字符来说，获取这些细粒度信息的成本很高；
在过去的方法中，目标风格通常由一个简单的分类器或判别器来进行特征表示学习，这种分类器或判别器很难学习到合适的风格，在一定程度上阻碍了在风格变化较大时的风格转换。

在这里插入图片描述
图1 在内容编码器中不同尺度的特征图

VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection

将视觉语言模型应用于弱监督视频异常检测

「简述：」VadCLIP是利用对比语言-图像预训练（CLIP）模型进行弱监督视频异常检测的新方法。它通过直接利用冻结的CLIP模型，无需预训练和微调，简化了模型适应过程。与现有方法不同，VadCLIP充分利用CLIP在视觉和语言之间的精细关联，采用双分支结构。一个分支进行粗粒度二分类，另一个分支则充分利用语言-图像对齐进行细粒度分析。通过双分支结构，VadCLIP实现了从CLIP到WSVAD任务的迁移学习，实现了粗粒度和细粒度的视频异常检测。
在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。