醒了就刷牙
码龄6年
关注
提问 私信
  • 博客:186,442
    186,442
    总访问量
  • 213
    原创
  • 6,548
    排名
  • 2,458
    粉丝
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:辽宁省
  • 加入CSDN时间: 2019-02-24
博客简介:

buyaotutou的博客

查看详细资料
  • 原力等级
    领奖
    当前等级
    5
    当前总分
    1,306
    当月
    186
个人成就
  • 获得3,619次点赞
  • 内容获得8次评论
  • 获得2,843次收藏
  • 代码片获得403次分享
创作历程
  • 206篇
    2024年
  • 7篇
    2022年
  • 1篇
    2020年
成就勋章
TA的专栏
  • 论文
    124篇
  • 深度学习论文相关小知识点
    8篇
  • python环境相关
    1篇
  • 秘密
  • 李沐动手学深度学习
    22篇
  • Java基础
    18篇
  • LeetCode刷题
    8篇
  • 算法
    2篇
  • Spring security
    1篇
  • 开发工具
    9篇
  • RouYi前后端分离框架学习
    2篇
  • 前端
    6篇
兴趣领域 设置
  • 人工智能
    opencv语音识别计算机视觉机器学习深度学习神经网络自然语言处理tensorflowpytorch图像处理数据分析
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

186人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

论文解读:CARAT P3

好的,下面我通过一个简单的例子,来帮助理解这个跨模态特征融合的过程,特别是涉及到样本洗牌和模态洗牌(Sample-wise Shuffle 和 Modality-wise Shuffle)。假设情景文本模态:例如,“愤怒”和“快乐”的情感描述。视觉模态:例如,图像中展现的情绪(“愤怒”面部表情和“快乐”面部表情)。音频模态:例如,语音中的情绪表达(“愤怒”的语气和“快乐”的语调)。我们希望通过跨模态特征融合来增强情感识别的表现。步骤 1:堆叠模态特征假设我们有3个样本(即 ( B = 3 ))和。
原创
发布博客 6 小时前 ·
224 阅读 ·
11 点赞 ·
0 评论 ·
6 收藏

多模态中的模态差距

在多模态学习中,(modality gap)指的是不同模态之间的差异和不一致性。这些差异可能表现在多个方面,比如信息的表示方式、特征分布、尺度、噪声等。例如,图像、文本、音频等模态的特征本质上是不同的,图像可能包含像素级的信息,文本则是基于词汇和语法的,而音频则是基于时间序列的信号。不同模态之间的差距会影响它们的有效融合和信息共享。
原创
发布博客 10 小时前 ·
216 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

论文解读:CARAT

在这里,Frobenius范数的作用是为重构损失提供一种精确且可计算的度量标准,通过最小化该范数值,确保特征向量能够有效重构并保留原始信息。
原创
发布博客 前天 22:02 ·
489 阅读 ·
9 点赞 ·
0 评论 ·
6 收藏

L2 正则化

假设模型的损失函数为LθL(\theta)Lθ,其中θ\thetaθ是模型的参数。LregθLθλ∑iθi2Lreg​θLθλ∑i​θi2​λ\lambdaλ是正则化系数(也叫超参数),用于控制正则化的强度。θi\theta_iθi​是模型的第iii个参数。∑iθi2∑i​θi2​是所有参数的平方和,也被称为参数的 L2 范数(或欧几里得范数)的平方。
原创
发布博客 前天 15:14 ·
499 阅读 ·
4 点赞 ·
0 评论 ·
5 收藏

《Multi-modal Summarization for Asynchronous Collection of Text, Image, Audio and Video》简要

随着互联网多媒体数据传输的快速增加,来自文本、图像、音频和视频的多模态摘要(MMS)变得愈加重要。在本研究中,我们提出了一种提取式多模态摘要方法,该方法能够根据与特定主题相关的文档、图像、音频和视频集合自动生成文本摘要。关键思想是弥合多模态内容之间的语义差距。对于音频信息,我们设计了一种选择性使用其转录文本的方法。对于视觉信息,我们通过神经网络学习文本和图像的联合表示。最后,考虑到所有多模态方面,我们通过预算化优化子模函数,最大化摘要的突出性、非冗余性、可读性和覆盖度,从而生成文本摘要。
原创
发布博客 2024.11.11 ·
602 阅读 ·
5 点赞 ·
0 评论 ·
21 收藏

《VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text》中文校对版

我们提出了一种框架,利用无卷积的Transformer架构从未标注数据中学习多模态表示。具体来说,我们的VideoAudio-Text Transformer(VATT)以原始信号作为输入,并提取出足够丰富的多模态表示,能够为各种下游任务带来显著提升。我们从头开始,通过多模态对比损失对VATT进行端到端训练,并通过视频动作识别、音频事件分类、图像分类和文本-视频检索等下游任务来评估其性能。此外,我们研究了一种模态无关的单一骨干Transformer,通过在三种模态之间共享权重来实现。
原创
发布博客 2024.11.11 ·
1983 阅读 ·
49 点赞 ·
0 评论 ·
38 收藏

WARNING: Ignoring invalid distribution - (d:\anaconda3\envs\d2l\lib\site-packages)

这个警告通常是因为 Python 环境中的某些分发包没有正确安装或是安装过程中出现了问题,导致这些分发包显示为“无效”。这些无效的包会干扰正常的包管理,并可能影响新包的安装。
原创
发布博客 2024.11.10 ·
322 阅读 ·
4 点赞 ·
0 评论 ·
10 收藏

t-SNE详解带代码

t-SNE(t-distributed Stochastic Neighbor Embedding)是一种用于的非线性技术,特别适合于高维数据。它被广泛用于将复杂的高维数据映射到二维或三维空间,以便于可视化和观察数据的分布、聚类等特征。t-SNE 通过保持数据点之间的,将相似的样本放在较近的位置,方便我们观察数据的结构。
原创
发布博客 2024.11.10 ·
904 阅读 ·
17 点赞 ·
0 评论 ·
16 收藏

知识图谱是如何通过数据集构建的,比如通过在MSCOCO和Flickr30k数据集和Visual Genome数据集

构建知识图谱通常涉及从数据集中提取实体和关系,并将其结构化为图的形式。
原创
发布博客 2024.11.09 ·
514 阅读 ·
18 点赞 ·
0 评论 ·
10 收藏

GAT详解带例子

层数:定义 GAT 的层数,如 2 层。第一层捕获近邻的特征,第二层捕获更远节点的特征。注意力头:定义多头注意力(如 8 个头),以增强信息采集的多样性。通过 GAT,模型可以自动学习到品牌和产品类型之间的共识关系。这种方法适合应用在电商知识图谱、产品推荐等场景中,有助于建立品牌与其主打产品类别的关联。
原创
发布博客 2024.11.09 ·
806 阅读 ·
23 点赞 ·
0 评论 ·
9 收藏

《Scene Graph to Image Synthesis via Knowledge Consensus》简要

本文研究了仅基于场景图的图到图像生成问题,旨在解开知识图与图像之间隐含的语义关系。尽管大多数现有研究依赖繁琐的辅助信息(如对象布局或分割掩码),探索在有限监督下模型的泛化能力也很有意义,这样可以避免额外的跨模态对齐。为应对这一挑战,我们深入探讨了对抗生成过程中的因果关系,并推导出一种新的原则,以实现目标分布和模型分布对齐的同时进行语义解耦。该原则被命名为知识共识,它明确描述了观察到的图像、图语义和隐藏的视觉表示之间的三角因果依赖关系。知识共识还定义了一种新的图到图像生成框架,通过若干对抗优化目标来实现。
原创
发布博客 2024.11.08 ·
596 阅读 ·
23 点赞 ·
0 评论 ·
12 收藏

《Consensus Graph Representation Learning for Better Grounded Image Captioning》简要

当代视觉描述生成模型常常出现“幻觉”对象,即生成的描述中包含场景中实际上不存在的对象,这通常是由于视觉误分类或过度依赖先验信息,导致视觉信息和目标词汇之间的语义不一致。最常见的解决方法是鼓励描述生成模型动态地将生成的对象词汇或短语与图像的适当区域进行链接,即“基于图像的描述生成”(GIC)。然而,GIC 利用一个辅助任务(对象定位),并未解决对象幻觉的关键问题,即语义不一致。在本文中,我们从一个新的角度出发:利用视觉和语言模态之间的语义一致性。
原创
发布博客 2024.11.08 ·
606 阅读 ·
14 点赞 ·
0 评论 ·
11 收藏

《CIDEr: Consensus-based Image Description Evaluation》简要

自动生成描述图像的句子一直是计算机视觉和自然语言处理领域的长期挑战。随着物体检测、属性分类、动作识别等方面的进展,学术界对该领域的兴趣重新高涨。然而,评估生成描述的质量仍然是一个难题。我们提出了一种新的基于人类共识的图像描述评估范式。该范式包括三个主要部分:一种基于三元组的新方法,用于收集人类标注来衡量共识;一种新的自动化评价指标CIDEr,用于捕捉共识;以及两个新数据集PASCAL-50S和ABSTRACT-50S,每个图像包含50条描述句子。
原创
发布博客 2024.11.07 ·
278 阅读 ·
9 点赞 ·
0 评论 ·
3 收藏

数据集整理

这个增强版数据集为图像中的每个描述性短语(例如“穿红色衬衫的女人”)标注了对应的图像区域(bounding boxes),实现了更精确的图像-文本对齐。该数据集主要用于训练和评估模型生成图像描述的能力,也为图像和文本的跨模态理解(如图像检索、文本检索)提供了丰富的数据支持。物体标注不仅包括常见的物品(如“人”、“车”、“树”等),还包含了场景中的细节物体(如“杯子上的图案”或“地上的叶子”)。每张图像展示了日常生活中常见的物体,并且这些物体被置于真实的、复杂的背景环境中,例如街道、室内、餐厅等场景。
原创
发布博客 2024.11.07 ·
742 阅读 ·
26 点赞 ·
0 评论 ·
13 收藏

论文解读:《Cross-modal Scene Graph Matching for Relationship-aware Image-Text Retrieval》

图像包含了物体和物体之间的关系,比如“一个女人骑在马背上”。要使计算机将两者匹配起来,我们需要设计一种方法,使得图像和文本都能够以相似的方式表达出这些对象(如“女人”“马”“海滩”)及其关系(如“骑在…这句话的意思是,由于图像和文本属于不同的模态(即图像是视觉数据,而文本是语言数据),它们在特征和结构上具有很大差异,因此在机器学习中,难以直接将它们统一起来进行表示。这一挑战在于如何设计一种方法,让计算机能够有效地理解并融合这两种数据类型,使它们形成一致的、综合的表示,便于进一步的匹配或检索。
原创
发布博客 2024.11.06 ·
138 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

论文解读 P2《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》

这段话描述了知识检索技术的演变:从早期简单的基于相似性的匹配方法,发展到使用深度学习模型进行更复杂的、可学习的检索,再到采用先进的预训练语言模型,进一步提高了知识整合的范围和效率。
原创
发布博客 2024.11.06 ·
874 阅读 ·
22 点赞 ·
0 评论 ·
19 收藏

双向三元组排名损失(Bidirectional Triplet Ranking Loss)

该损失函数通过对比正样本和负样本的相似度,确保图像和文本在嵌入空间中的对齐。通过优化损失函数,模型能够学会将匹配的图像-文本对映射到相似的位置,同时将不匹配的图像-文本对映射到远离的位置。这种损失函数广泛应用于跨模态检索、图像描述生成和视觉问答等任务。
原创
发布博客 2024.11.05 ·
855 阅读 ·
28 点赞 ·
0 评论 ·
12 收藏

Kullback-Leibler (KL)散度

KL散度作为一种规范化手段,用于衡量图像和文本之间概念预测的相似度,目标是将它们在共享的概念空间中对齐。通过最小化KL散度,模型能够优化图像和文本的嵌入表示,使得两者的语义更加一致。这在跨模态学习和多模态检索等任务中尤其重要。
原创
发布博客 2024.11.05 ·
1033 阅读 ·
30 点赞 ·
0 评论 ·
20 收藏

论文解读:《Consensus-Aware Visual-Semantic Embedding for Image-Text Matching》

场景图生成是一种计算机视觉任务,旨在将图像中的物体、它们之间的关系和场景的上下文信息以图形的形式表示出来。物体(Nodes): 场景中存在的物体,例如人、动物、家具等。关系(Edges): 物体之间的关系,比如“在”、“旁边”、“持有”等。属性(Attributes): 物体的特征,如颜色、大小、状态等。物体检测: 首先识别图像中的各个物体。关系识别: 识别这些物体之间的空间或语义关系。图结构构建: 将物体和关系组织成一个图结构,通常是一个有向图或无向图。应用场景视觉问答: 理解和回答与图像相关的问题。
原创
发布博客 2024.11.04 ·
490 阅读 ·
5 点赞 ·
0 评论 ·
7 收藏

《Consensus-Aware Visual-Semantic Embedding for Image-Text Matching》中文校对版

图文匹配在连接视觉与语言方面起着核心作用。现有的大多数方法仅依赖图文实例对来学习其表示,从而利用其匹配关系并进行相应的对齐。这类方法仅利用了实例对数据中的表面关联,而未考虑任何外部的常识知识,这可能限制其推理图文之间高级关系的能力。在本文中,我们提出了一种共识感知的视觉-语义嵌入(CVSE)模型,将共识信息,即两种模态共享的常识知识,引入到图文匹配中。具体来说,通过计算图像字幕语料库中语义概念的统计共现关系并部署构建的概念相关图来生成共识感知概念(CAC)表示来利用共识信息。
原创
发布博客 2024.11.04 ·
2435 阅读 ·
94 点赞 ·
0 评论 ·
17 收藏
加载更多