qq_43314576
码龄6年
关注
提问 私信
  • 博客:40,891
    40,891
    总访问量
  • 48
    原创
  • 29,582
    排名
  • 424
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:中国
  • 加入CSDN时间: 2018-09-30
博客简介:

qq_43314576的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    549
    当月
    3
个人成就
  • 获得604次点赞
  • 内容获得14次评论
  • 获得630次收藏
创作历程
  • 24篇
    2024年
  • 30篇
    2023年
成就勋章
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Toward Characteristic-Preserving Image-based Virtual Try-On Network

基于图像的虚拟试穿系统可以让用户在不实际试穿的情况下体验新衣服的效果,这一领域正受到越来越多的研究关注。理想的虚拟试穿系统不仅应该能够将目标服装无缝地变形到最合适的形状,还应该能够很好地保留服装的特征(如纹理、标志、刺绣等)。然而,现有的基于图像的生成方法无法满足这些关键要求,因为它们无法处理输入图像和目标服装之间的大空间错位。为了解决这一问题,本文提出了一种新的可学习的特征保留虚拟试穿网络(CP-VTON)。
原创
发布博客 2024.10.27 ·
323 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

FICE: 基于文本条件的时尚图像编辑与引导生成对抗网络逆过程

FICE的目标是编辑给定的(时尚)图像 I \in {\mathcal{R}}^{3 \times n \times n} ,以符合某些(外观相关的)文本描述 t ,并合成一个相应的输出图像 {I}{f} \in {\mathcal{R}}^{3 \times n \times n} ,尽可能紧密地遵循 t 中表达的语义。在这里,合成过程需要满足以下标准:(1)合成的输出图像 {I}
翻译
发布博客 2024.10.20 ·
42 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

按示例绘画:基于示例的图像编辑与扩散模型

语言指导的图像编辑最近取得了巨大成功。在本文中,我们研究示例指导的图像编辑以实现更精确的控制。我们通过利用自监督训练来分离和重新组织源图像和示例图像,达到这一目标。然而,简单的方法将导致明显的融合伪影。我们仔细分析了这一点,并提出了内容瓶颈和强增强,以避免直接复制和粘贴示例图像的简单解决方案。同时,为确保编辑过程的可控性,我们为示例图像设计了一个任意形状的遮罩,并利用无分类器指导来提高与示例图像的相似性。整个框架涉及扩散模型的单一前向传播,无需任何迭代优化。
翻译
发布博客 2024.10.14 ·
26 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SmartBrush:基于扩散模型的文本和形状引导的对象修复

通用图像修复旨在通过借用周围信息来完成损坏的图像,这几乎不会生成新内容。相比之下,多模态修复为修复内容提供了更灵活和有用的控制,例如,可以使用文本提示来描述具有更丰富属性的对象,可以使用掩码来约束修复对象的形状,而不仅仅将其视为缺失区域。我们提出了一种新的基于扩散的模型 SmartBrush,用于使用文本和形状引导完成缺失区域的对象修复。虽然之前的工作如 DALLE-2 和 Stable Diffusion 可以进行文本引导的修复,但它们不支持形状引导,而且倾向于修改生成对象周围的背景纹理。
翻译
发布博客 2024.10.13 ·
59 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Edi

主题驱动的文本到图像生成模型基于文本提示创建输入主题的新颖呈现。现有的模型存在长时间的微调和难以保持主体保真度的问题。为了克服这些局限性,我们引入了BLIP扩散,这是一种新的主题驱动的图像生成模型,支持多模态控制,使用主题图像和文本提示的输入。与其他主题驱动的生成模型不同,BLIP Diffusion引入了一种新的多模态编码器,该编码器经过预训练以提供主题表示。我们首先按照BLIP-2对多模式编码器进行预训练,以产生与文本对齐的视觉表示。
翻译
发布博客 2024.09.08 ·
75 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Imagic: Text-Based Real Image Editing with Diffusion Models

文本条件图像编辑最近引起了相当人的兴趣。然而目前人多数方法仅限于以下之一:特定的编辑类型(例如,对象叠加、样式转换)、合成生成的图像或需要一个共同对象的多个输入图像。在这篇论文中,我们首次证明了对单个真实图像应用复杂(例如,非刚性)基于文本的语义编辑的能力。例如,我们可以改变图像中一个或多个对象的姿势和构图,同时保其原始特征。我们的方法可以让一只站立的狗坐下,让一只乌展开翅膀等等每个都在其单个高分辨率用户提供的自然图像中。与之前的工作相反,我们提出的方法只需要一个输入图像和一个日标文本(所需的编辑)。
翻译
发布博客 2024.09.01 ·
124 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

TexFit: Text-Driven Fashion Image Editing with Diffusion Models

时尚图像编辑是为了编辑输入图像,以获得更丰富或独特的视觉服装匹配效果。现有的全局时尚图片编辑方式难以实现丰富及独特的服装搭配效果,而局部时尚图片编辑更符合多样化、个性化的服装搭配需求。局部编辑技术通常依赖于文本和辅助方式(例如,人体姿势、人体关键点、服装草图等)进行图像处理,其中辅助方式有助于定位编辑区域。由于这些辅助方式在实际应用场景中通常涉及额外的工作,因此文本驱动的时尚图像编辑表现出高度的灵活性。
翻译
发布博客 2024.08.23 ·
115 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基于沙漏标记的高效三维人体姿态估计框架HoT

HoT是第一个基于 Transformer 的高效三维人体姿态估计的即插即用框架。如下图所示,传统的 VPT 采用了一个 “矩形” 的范式,即在模型的所有层中维持完整长度的 Pose Token,这带来了高昂的计算成本及特征冗余。与传统的 VPT 不同,HoT 先剪枝去除冗余的 Token,再恢复整个序列的 Token(看起来像一个 “沙漏”),使得 Transformer 的中间层中仅保留少量的 Token,从而有效地提升了模型的效率。
原创
发布博客 2024.06.16 ·
975 阅读 ·
19 点赞 ·
0 评论 ·
22 收藏

基于细节增强卷积和内容引导注意的单图像去雾

本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。该论文提出了提出了一种细节增强注意力块(DEAB),该模块由一个细节增强卷积(DEConv)和一个内容引导的注意力(CGA)机制组成,使得模型能够更好地保留图像的细节信息,同时又能关注图像中的重要信息,从而达到更好的去雾效果。除此之外,还学习学习了CGA模块的注意力代码模块的学习。本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。
原创
发布博客 2024.06.06 ·
861 阅读 ·
18 点赞 ·
0 评论 ·
24 收藏

用于密集预测的多路径视觉Transformer

本周主要阅读了2022CVPR的文章,用于密集预测的多路径视觉Transformer,在文章中讲解了当前Transformer对于多尺度的密集预测的困难之处,并提出了一种方法多路径视觉Transformer方法来解决,其主要思路就是通过嵌入CNN对多路径的物体进行特征提取,最后将特征重新聚合得到一种多路径的视觉密集预测的方法。在最终测试下,都取得比较好的成绩。另外我还对Transformer的相关知识以及代码进行了复习。
原创
发布博客 2024.06.02 ·
722 阅读 ·
11 点赞 ·
0 评论 ·
11 收藏

用于视频识别的快慢网络

本周主要阅读了CVPR文章, SlowFast Networks for Video Recognition。SlowFast模型网络是一种用于视频识别任务的深度学习模型。它的核心思想是将两种不同帧率的路径(慢途径和快途径)结合在一起,以便更好地捕捉视频中的时空特征。一个慢途径和一个快途径。慢途径以较低的帧率运行,负责处理低帧率下的信息,这意味着它具有较低的时间分辨率;而快途径以较高的帧率运行,负责处理高帧率下的信息,具有较高的时间分辨率。除了阅读文献之外,还学习了yoloV5框架的代码知识。
原创
发布博客 2024.05.26 ·
782 阅读 ·
17 点赞 ·
0 评论 ·
19 收藏

在视频中使用时间卷积和半监督训练进行三维人体姿态估计

本周主要阅读了CVPR文章, 3D human pose estimation in video with temporal convolutions and semi-supervised training。这是一种基于二维关键点和扩张时间卷积的全卷积模型,用于有效估计视频中的三维人体姿态,除此之外,还提出了一种名为“反投影”的半监督训练方法,该方法能够利用未标记的视频数据来增强模型的学习效果,这一过程不仅提高了模型对未标记数据的利用效率,而且显著提升了学习性能。
原创
发布博客 2024.05.19 ·
1072 阅读 ·
22 点赞 ·
0 评论 ·
20 收藏

高效三维人体姿态估计框架HoT

HoT是第一个基于 Transformer 的高效三维人体姿态估计的即插即用框架。如下图所示,传统的 VPT 采用了一个 “矩形” 的范式,即在模型的所有层中维持完整长度的 Pose Token,这带来了高昂的计算成本及特征冗余。与传统的 VPT 不同,HoT 先剪枝去除冗余的 Token,再恢复整个序列的 Token(看起来像一个 “沙漏”),使得 Transformer 的中间层中仅保留少量的 Token,从而有效地提升了模型的效率。
原创
发布博客 2024.04.28 ·
1012 阅读 ·
28 点赞 ·
0 评论 ·
20 收藏

YOLO世界:实时开放词汇对象检测

本周主要阅读了CVPR文章,YOLO-World: Real-Time Open-Vocabulary Object Detection。是一种先进的实时开放词汇对象检测系统,它基于流行的 YOLO(You Only Look Once)对象检测框架。
原创
发布博客 2024.04.21 ·
1385 阅读 ·
26 点赞 ·
0 评论 ·
21 收藏

3D场景编辑方法——CustomNeRF

本周主要阅读了CVPR文章,Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global lterative Training。一种将文本描述和参考图像统一为编辑提示的CustomNeRF框架,可以通过微调预训练的扩散模型将参考图像中包含的特定视觉主体V∗嵌入到混合提示中,从而满足一般化和定制化的3D场景编辑要求。除此之外,还学习了简单的Transformer代码的学习。
原创
发布博客 2024.04.13 ·
735 阅读 ·
18 点赞 ·
0 评论 ·
27 收藏

Learning To Count Everything

本周主要阅读了CVPR文章,Learning To Count Everything。文章提出了一种名为FamNet的新型网络结构,是卷积神经网络(CNN)的改进版本。可以将FAMNet与CNN或其他类型的神经网络结合,形成更复杂的深度学习模型,以处理更复杂的图像识别任务。FamNet利用提供的示例对象和查询图像之间的相似性来估计密度图,从而实现物体计数。。除此之外,还学习学习了RNN代码的学习。循环神经网络(Recurrent Neural Network,RNN)是一种深度学习模型,用于处理序列数据。
原创
发布博客 2024.03.30 ·
1925 阅读 ·
31 点赞 ·
0 评论 ·
27 收藏

基于骨骼的动作识别的行动结构图卷积网络

本周主要阅读了CVPR文章,基于骨骼的动作识别的行动结构图卷积网络。文章提出了一种名为AS-GCN的新型网络结构,用于处理基于骨架数据的人体动作识别问题。AS-GCN通过引入编码器-解码结构的A-link推理模块,可以直接从动作中捕捉到动作特定的潜在依赖关系。AS-GCN还扩展了现有的骨架图,以表示更高阶的依赖关系,即结构链接。通过将这两种类型的链接合并到一个通用的骨架图中。除此之外,还学习学习了U-net代码的学习。本周主要阅读了CVPR文章,基于骨骼的动作识别的行动结构图卷积网络。
原创
发布博客 2024.03.23 ·
1209 阅读 ·
20 点赞 ·
0 评论 ·
12 收藏

带有超令牌采样的视觉转换器

本周主要阅读了CVPR文章,带有超令牌采样的视觉转换器。该论文提出了一个名为SViT的方法,这是一种基于Transformer的模型,SViT主要由以下几个关键组件构成:卷积位置嵌入(CPE)、卷积FFN(ConvFFN)及空间注意力(STA)模块,通过在Transformer中引入卷积层,使得模型能够更好地利用局部信息,同时保持了Transformer对全局信息的建模能力。除此之外,还学习学习了StokenAttention的注意力模块代码的学习。
原创
发布博客 2024.03.17 ·
1184 阅读 ·
22 点赞 ·
0 评论 ·
20 收藏

文献阅读:DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾

本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。该论文提出了提出了一种细节增强注意力块(DEAB),该模块由一个细节增强卷积(DEConv)和一个内容引导的注意力(CGA)机制组成,使得模型能够更好地保留图像的细节信息,同时又能关注图像中的重要信息,从而达到更好的去雾效果。除此之外,还学习学习了CGA模块的注意力代码模块的学习。本周主要阅读了文章,DEA-Net:基于细节增强卷积和内容引导注意的单图像去雾。
原创
发布博客 2024.03.09 ·
5621 阅读 ·
61 点赞 ·
1 评论 ·
81 收藏

基于场景文字知识挖掘的细粒度图像识别算法

本周主要阅读了2022CVPR的文章,基于场景文字知识挖掘的细粒度图像识别算法,该论文提出了一种通过挖掘场景文本背后的语义来增强分类模型理解图像内容的方法,该方法利用场景文字作为关键词,到Wikipedia知识库中检索出相关的知识,并获取其特征表达,和图像视觉特征进行融合理解,而并非仅仅利用场景文字的表面语义信息,这种方法能够更好地理解文字语义并不非常直观的内容,从而提升图像识别的性能。除此之外,我还学习复习了RNN的相关知识,并通过其实现过程来进行代码的学习。
原创
发布博客 2024.02.04 ·
1053 阅读 ·
21 点赞 ·
0 评论 ·
28 收藏
加载更多