自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ZG

  • 博客(83)
  • 收藏
  • 关注

原创 图形网络的自适应扩散 笔记

先前模型无法实现这一目标的障碍在于,考虑到随着参数数量的增加,时间复杂度呈指数增长,对每个特征通道和GNN层的传播函数分别进行手动调整或网格搜索是不可行的挑战。同时,验证和测试精度急剧下降,因为t趋于零(更多的epoch) -表示每个节点只能使用自己的特征来预测标签, 也就是说,直接在训练集上学习t会导致过拟合。,对于每个图数据集,需要手动网格搜索步骤来确定与邻域半径相关的参数t,此外,对于每个数据集中的所有特征通道和传播层,t是固定的。如果按上面的方法,每次更新t时,需要使w收敛到最优值,这就太贵了。

2024-05-09 10:33:34 412

原创 用于图生成的自回归扩散模型 笔记

都以独立概率α(t)衰变为吸收态(数据的一个维度或一旦数据进入吸收态,它就不会再对后续的扩散过程产生影响,相当于在这个维度上的信息已经被“吸收”或“丢失”了)吸收状态可以是文本的[MASK]标记或图像的灰度像素。从目标分布生成图形是许多领域的基本问题,传统随机图模型方法用强大的深度生成模型拟合图形数据,包括变分自编码器(VAEs) 、生成对抗网络、归一化流(Madhawa等人,2019)和基于能量的模型(EBMs) ,这些模型捕获复杂的图结构模式,然后生成具有所需属性的新的高保真图。中采样节点衰减排序σ。

2024-05-06 22:49:37 977

原创 Fast Bilateral Filteringfor the Display of High-Dynamic-Range Images

高动态范围图像(High-Dynamic Range,简称HDR),相比普通的图像,可以提供更多的动态范围和图像细节,根据不同的曝光时间的LDR(Low-Dynamic Range)图像,利用每个曝光时间相对应最佳细节的LDR图像来合成最终HDR图像,能够更好的反映人真实环境中的视觉效果。最简单的方法是线性隐射,先算出离散数据的最大值和最小值,然后将数据线性的拉升至0到255之间,这种直接的操作往往无法得到满意的效果,会导致大量细节丢失,表现在视觉上就是一大块黑色或者一大块白色的。

2024-04-30 22:44:00 600

原创 简化图卷积 笔记

是输入特征,W是一个需要学习的权重矩阵。这种方法的优点是计算效率高,因为所有层的操作可以预先计算并存储为一个矩阵。此外,由于省略了非线性激活函数,SGC的训练过程也更稳定。然而,这也意味着SGC可能无法捕捉到一些复杂的非线性模式。本文的目的是把非线性的GCN转化成一个简单的线性模型SGC,通过反复消除GCN层之间的非线性并将得到的函数折叠成一个线性变换来减少GCNs的额外复杂度。是第l层的权重,σ是非线性激活函数。其中,A是邻接矩阵,D是度矩阵,是第l层的隐藏状态,

2024-04-23 20:15:07 761

原创 扩散卷积模型 笔记

Diffusion Convolutional Neural Networks(James Atwood and Don Towsley)【NeurIPS 2016】 This paper presents diffusion-convolutional neural networks (DCNNs), a new model forgraph-structured data. Through the introduction of a diffusion-convolution opera

2024-04-21 15:19:51 547

原创 GDC 笔记

这是因为在实际情况中,基于PPR和热核的方法在真实世界的图上都表现出很强的局部化特性,因此特征值的变化经验上不会随着节点数N而扩大。该矩阵定义了一个加权有向图,本文旨在增强模型应用于该图,加权边有助于GDC的应用,但GDC也可以用于仅支持未加权边的模型,如度校正随机块模型(DCSBM),也可以通过。,不把k相加,也会发生这种情况,这是因为现实生活中的“four/six degrees of separation”,即大部分节点之间存在着较短的路径,这通常导致S中的值的影响高度局部化。

2024-04-18 16:39:40 963

原创 用于半监督的图扩散网络 笔记

如果图结构的拉普拉斯矩阵捕获了成对顶点的相似性,即,图满足同向性原理,则幂迭代将使聚类分离,并且所提供的标签信息将加速该过程。也就是说当 k 很大时,GCN 模型会倾向于收敛到矩阵 W 的主要特征向量,而忽略了输入特征矩阵 X 和参数矩阵 Θ 的影响,从而导致模型性能下降。,本文建议将这些矩阵中包含的所有局部和全局邻域信息聚合在一个层中,用于稀疏标记图上的半监督分类。,这个公式是K局部化的,即,它仅依赖于与中心顶点相距最大K跳距离的顶点(K阶邻域),其时间复杂度为O(e),e是图的边数。

2024-04-16 20:15:55 905

原创 ADAPTIVE GRAPH DIFFUSION NETWORKS(自适应图扩散网络) 笔记

虽然GDC控制最终扩散矩阵的稀疏性,但中间显式的高次幂转移矩阵仍被保持,这限制了它的可扩展性。此外,加权系数是预定义的,并且对于所有节点、通道和层都是相同的,这可能会限制模型性能。然后,图扩散用扩散矩阵代替转移矩阵,该扩散矩阵是转移矩阵的幂与沿跳标准化的加权系数的线性组合。Implicit diffusion matrix: Graph Diffusion Networks:图扩散网络(gdn)执行隐式图扩散,从每层中的节点特征或表示矩阵开始进行从右到左的矩阵乘法。HA引入了逐跳和逐节点的加权系数。

2024-04-15 14:16:26 954

原创 马可洛夫图扩散(MARKOVGNN) 笔记

如图所示的例子中,GNN有三层,马尔可夫过程在四次迭代中收敛因此,GNN的第1、2和3层分别使用M1、M3和M5。M1是表示给定图形的输入随机矩阵,M5是具有四个已发现社区的收敛矩阵,M2、M3和M4是捕捉社区形成的中间矩阵。b图显示了基于扩散模型添加了一个新边{𝑣1,𝑣4}并删除了一个现有边{𝑣3,𝑣5}的修改后的图(捕捉原始图中的群落结构)。图扩散可以作为一个去噪滤波器,类似于图像上的高斯滤波器,然而,GDC创建扩散矩阵作为预处理步骤,并在GNN的每一层中使用相同的扩散矩阵。是前一次迭代的输出。

2024-04-14 16:10:39 1041

原创 异构超图嵌入的图分类 笔记

之后在这些简单图上构造超图,然后将它们分解成多个超图快照,再然后使用开发的超图小波神经网络(HWNN)来学习每个快照中的节点嵌入,然后将这些快照聚合为用于下游分类的综合表示。与顶点域中的方法相比,这种谱方法不需要考虑超图中复杂的消息传递模式,并且还可以执行局部卷积,小波基比傅立叶基稀疏得多,它可以通过多项式有效地近似而无需拉普拉斯分解。在许多现实世界的场景中,对象之间的关系不是二元的(成对的),而是三元的、四元的或更高级的。这里V𝑒和E𝑒分别是V和E的子集,超图快照是根据超边类型生成的,这意味着。

2024-04-11 16:18:24 845

原创 HNHN 笔记

HNHN是一个超图卷积网络,具有应用于超节点和超边的非线性激活函数,并结合了一个归一化方案,可以根据数据集灵活调整高基数超边和高度顶点的重要性。,当α>0时,超边的贡献增加,而如果α<0,则超边的贡献减少。星展开的缺点是它对超节点和超边都一样,但是实际场景了超节点和超边往往是不同的,所以应该有不同的权重。团展开的缺点是涉及信息的丢失-即在相同的顶点集上可能有两个不同的具有相同团扩展的超图。图形卷积中的归一化是必需的,因为训练过程需要维持稳定性。σ是非线性激活函数,W是权重矩阵,b是偏差矩阵。

2024-04-10 20:27:47 886

原创 序列超图的下一项推荐 笔记

使用集合U来表示N个用户,集合I来表示P个items,集合Q来表示不同的时间戳T,每个t相当于一段period,对于每个用户,按照时间顺序对用户u与之交互的项目列表进行排序,比如。开始,其中每一个都是与项目ID相关联的可训练嵌入,但是对于不同用户在不同时间戳不变,下一个项目推荐的目标是预测𝑢在。表示在tn时刻之前的第i个item来自最近的超图的动态嵌入,如果之前i没有出现过,那么。内发生的所有用户-项目交互而构建,V属于I,是节点集,代表时间段内的交互items,表示初始层与第1层之间的可训练权矩阵。

2024-04-06 22:10:33 720

原创 LightHGNN+ 笔记

因此,本文提出了LightHGNN和LightHGNN+弥合HGNN和推理高效的多层感知器(mlp)之间的差距,以消除HGNN的超图依赖,从而降低计算复杂度并提高推理速度。LightHGNN通过软标签直接将教师hgnn中的知识提取到学生mlp中,并且LightHGNN+进一步明确地将可靠的高阶相关性注入到学生mlp中,以实现拓扑感知蒸馏和抗过度平滑。上的预测分布之间的距离。ightHGNN,它直接将HGNNs的知识提取到MLPs,MLPs是学生网络,训练良好的HGNNs作为教师网络,并使用交叉熵损失。

2024-04-05 16:41:49 632

原创 用于推荐系统的自监督超图Transformer 笔记

Self-Supervised Hypergraph Transformer for Recommender Systems(Lianghao Xia, Chao Huang, Chuxu Zhang)【KDD 2022】 User behavior data in many practical recommendation scenarios is often noisy and exhibits skewed distribution, which may result in subopt

2024-04-05 11:42:42 873

原创 基于会话推荐的自监督超图卷积网络 笔记

本文提出一种双通道超图推荐系统的应用。

2024-04-02 12:20:54 899

原创 通过Hypergraph transformers学习特征 笔记

除了传统的GNN模型,HyperFormer中的每一层都使用两个不同的超图引导的消息传递函数来学习表征,同时捕获高阶实例关联和特征关联。具体来说,首先从特征嵌入表F中查找初始化超边表示,并通过连接其所有特征表示来计算每个实例的初始节点表示。代表 Transformer-like的注意力机制,TF𝑒𝑑𝑔𝑒是将超边的信息聚合到节点的消息传递函数,TF𝑛𝑜𝑑𝑒是将节点的信息聚合到超边的消息传递函数。,首先应用特征到实例(边到节点)的消息传递来学习节点𝑣的下一层表示。是特征到实例转换器的键的投影矩阵。

2024-03-31 15:32:12 633

原创 Diffuison在域自适应中 笔记

本文提出了一种基于即插即用扩散的目标采样器(DTS)来生成高保真度和多样性的伪目标样本来解决无监督域适应(UDA)中大型域偏移和目标域中的样本稀缺的问题。这样,可以用伪目标样本来增强目标样本,从而提高UDA模型的性能。DTS将生成的目标样本和原始源样本组合为增广源域,其中使用原始源样本来抑制生成目标样本的噪声标签的影响。如图所示,整个DTS框架分为以上三个步骤,步骤1:通过一些UDA方法获得分类器,步骤2:由步骤1中预训练的分类器分配目标样本的伪标签,并使用具有伪标签的目标样本来训练CDPM。

2024-03-25 16:40:16 823

原创 目标检测上的diffusion

因此,本文将整个模型分成两部分,图像编码器和检测解码器,其中前者只运行一次以从原始输入图像 x 中提取深度特征表示,后者以此深度特征为条件,而不是原始图像,以逐步细化来自嘈杂框 zt 的框预测(这个想法跟latent diffusion 差不多,不过latent diffusion使用vae来提取特征)。一旦模型被训练好了,它就可以用于在推理中改变方框的数量和样本步骤的数量,如图所示。因此,可以在多个场景中部署一个扩散网络,并在不需要再训练网络的情况下获得一个期望的速度-精度的权衡。

2024-03-24 20:28:18 666

原创 T2I diffusion模型是零样本分类器笔记

【2023】

2024-03-24 12:11:08 960

原创 扩散模型零样本分类应用笔记

也就是在大规模Text2Img任务中density estimation 这件事情几乎等价于 zero-shot classification without training,于是作者们将这一分类机制单独提炼出来,形成了 Diffusion Classifier 模型,并展示了这一模型有着很强的 multi-modal reasoning 的能力,它可以从含分类的 diffusion models 中提取出标准的分类器。具体推导过程请看论文,这里不多赘述。

2024-03-22 21:57:21 769

原创 用于组推荐的超图卷积网络笔记

;;

2024-03-20 21:21:36 1029

原创 A-Z Medicine Dataset of India数据集

这是一个印度药组成的数据集,最近的数据来自2022年11月。其内容包括:id,名字,出厂方,是否已停用,价格,类型,pack_size_label,以及两个药品成分描述九个属性,共计249398个不同的药物。值得一提的是基本都是对抗治疗性的药物。链接:https://pan.baidu.com/s/19bVgZ7gDn8Jz0rgK_BluvA。

2024-03-17 16:20:08 324

原创 超图音乐推荐模型笔记

在音乐推荐系统中,超图的点集被由以下这些内容组成:歌曲S,用户U,艺术家A,版本R,标签T。而边集根据点与点之间的关系,包含以下内容:收听(用户与歌曲)、专辑(版本与歌曲)、唱片(艺术家和歌曲)、主题(标签和歌曲)。这个多阶段框架非常灵活,可以通过更改嵌入生成模块轻松改进,不仅可以用于推荐,还可以用于不同的应用,正好是我需要的。2、嵌入生成:随机游走和顶点嵌入是从超图数据模型生成的。3、推荐生产:为每个用户生成一首 top-K 歌曲推荐。1、超图数据建模:数据在基于超图的结构中建模和存储。

2024-03-10 19:36:24 885

原创 DRC:扩散模型的推荐系统应用

与图像生成任务不同,为保证用户的个性化信息,DRM在训练时并没有将用户交互破坏为纯噪声,并且在训练和推断时均减少了前向过程中添加的噪声。本文提出了一种扩散推荐模型,以及它的两个扩展,用latent space的L-DiffuRec和引入了时间戳的T-DiffuRec。值得注意的是与原始diffusion不同,本文设计了一个新的noise schedule,不过与原始相同,前向过程是没有参数的。(2) 反向过程中模型逐步去噪并恢复原始信息。(1) 前向过程加入高斯噪声逐步破坏交互信息。

2024-03-09 15:18:02 908

原创 DiffuRec扩散推荐模型笔记

DiffuRec模型结构如图所示,主要包括三个部分:1)逼近器(Approximator);2)前向扩散过程(Diffusion Phase);3)后向逆扩散过程(Reversion Phase)。针对传统推荐算法存在的表征能力有限、不确定性等挑战,本文提出一种利用扩散模型进行序列推荐的工作,该工作能够实现高质量、多样性的推荐效果。商品多维潜在表征建模、用户多兴趣表征建模、推荐的不确定性、推荐的不确定性等方面存在缺陷。

2024-03-07 14:11:45 949

原创 Hierarchical Text-ConditionalImage Generation with CLIP Latents笔记

首先要提的就是CLIP具有打破预定义好的标签的能力,也就是zero-shot,它的标签很灵活,两个标签就是二分类任务,十个就是十分类,不需要预定义任务是分几个类。在使用引导的时候,与glide相比,unclip不会导致坍缩问题(也就是随着引导条件的增多,绘制出的图多样性越来越少,基本都一样了最后)。但是clip也有它的问题,就是在多目标属性绑定上容易造成混淆,unclip在这方面做的更差,属性绑定问题更严重。本文将将zero-shot和扩散模型两种方法结合起来,用于文本条件下的图像生成问题。

2024-03-04 15:10:27 973

原创 T2I:zero shot笔记

训练一个离散变分自编码器(dVAE,将每个256×256 RGB图像压缩成一个32 × 32的图像标记网格,其中每个元素可以假设8192个可能值,这将Transformer的上下文大小减少了192倍,而视觉质量没有大的下降。这一步骤对应于训练dVAE。本文的目的是训练一个Transformer,它能够将文本和图像tokens自回归建模成单独的数据流,但是直接用像素当做图像tokens的话需要较高的内存,而似然目标则优先考虑像素之间的短程关依赖关系建模。本文通过使用两阶段训练程序来解决这些问题。

2024-03-01 10:57:02 815

原创 无视频文本对数据训练文本到视频模型笔记

Make-a-Video是基于无监督学习在无标记的视频数据上学习真实的运动的文本到视频生成方法,Make-A-video 有三个优点:(1) 它加快了 T2V 模型的训练过程(无需从头学习视觉和多模态表示);如图,给定输入文字 x,由先验 P 翻译成图片嵌入,并指定所需的帧速率,解码器 Dt 生成 16 个 64 × 64 帧,通过 ↑F 插值成高帧率,通过 SR 将分辨率提高到 256 × 256,通过 SRh 将分辨率提高到 768 × 768,从而生成高时空分辨率的视频 y。

2024-02-18 11:31:39 1144

原创 Attention Is All You Need(Transformer模型)

Transformer是一个利用注意力机制来提高模型训练速度的模型。完全基于自注意力机制的一个深度学习模型,因为它适用于并行化计算,和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络。

2024-02-15 11:31:06 938

原创 GLIDE:使用文本引导扩散模型实现图像生成和编辑

使用Dhariwal&Nichol(2021)的ImageNet 64×64模型相同的模型架构,但将模型宽度扩展到512个通道,从而为模型的视觉部分产生大约23亿个参数。Training:以64×64的分辨率训练了一个35亿参数的文本条件扩散模型,并训练了另一个15亿参数的文本条件的上采样扩散模型,以将分辨率提高到256×256。在零样本图像生成方面,本模型不能匹配很复杂的文本提示,因此,除了零样本生成之外,该模型还具备编辑功能,这允许人类迭代地改进模型样本,直到它们匹配更复杂的提示。

2024-02-13 19:36:17 1115

原创 CogView:通过Transformers完成文本到图像的生成

如图3所示,四个分隔符token,[ROI 1](图像的参考文本)、[BASE]、[BOI1](图像开头),[EOI1](图像的结尾)被添加到每个序列中以指示文本和图像的边界。本文并预训练了一个具有40亿个参数的Transformer,并且提出Precision Bottleneck Relaxation和Sandwich Layernorm解决了数据异构性导致的不稳定问题,并且本文的transformer是开源的。image tokenizer是一个离散的自动编码器,类似于VQ-VAE的第一阶段。

2024-02-03 16:41:28 943

原创 Photorealistic Text-to-Image Diffusion Modelswith Deep Language Understanding

Classifier-free guidance则是它的替代技术,通过在训练期间随机丢弃c(例如,以10%的概率)来联合训练条件和无条件目标的单扩散模型,从而避免这种预训练模型。1.发现使用纯文本数据训练的frozen language model 在text to image 任务上比一些多模态数据训练的模型来说是更好用的文本编码器,并且在提高样本质量方面,缩放这个编码器的大小比缩放扩散模型的大小更有效。4.介绍了一个新的全面的和具有挑战性的文本到图像任务的评估基准DrawBench。

2024-02-03 15:45:13 926

原创 DDIM的一点笔记

DDIM加速的原因除了训练过程的非马尔科夫链化以外,还有L1带来的特殊性质导致的采样过程的加速,respacing。关键在于T到0的迭代过程中,可以在序列上找到一个子集,整个生成过程就可以在这个子集上生成样本,而不用在原来的T上训练,质量没有下降太多,而数量减少了,于是就加速了。DDIM把DDPM中的马尔可夫前向过程非马尔可夫化了,还给出了逆向过程中的后验概率分布表达式,但是目标函数还是DDPM那个,并没有改变。不同的σ导致不同的生成过程,但是模型其实是同一个,σ只影响采样的结果。

2024-02-02 19:16:15 924

原创 On the Design Fundamentals ofDiffusion Models: A Survey

相比之下,手动设计的噪声调度是用各种各样的数学启发式方法制定的。如图所示,采样过程与逆向过程类似,但是是利用优化的去噪网络θ*生成新的数据x*0,它首先从最终的分布p(xT)中获得样本xT,然后使用经过训练的网络通过采样过渡pθ*(xT−1|xT)迭代去除噪声。通过优化去噪网络中的可训练参数θ来近似,用神经网络通过递归的方式来去除前向过程添加的噪声,而并不像GAN那样在一个时间步中消除所有噪声,公式如下。扩散模型可以用两种不同的方式来表示,即离散和连续,它们的差异是在时间步的定义上是否是连续的。

2024-02-01 22:01:52 1072

原创 DDPM的一点笔记

第一行就是扩散过程,第二行则是重构过程,而第三行是重构的真正方式(因为第二行并不适用,目的就是得到x0,公式中都有x0,岂不是闭合了),所以最终DDPM的核心就在于。整个DDPM的核心假设是马尔科夫链假设,即变换过程只与前一状态有关,与更前的状态无关,这样的话,可以简化一些复杂的概率分布,比如。DDPM的主要过程如图所示,共有两个阶段,第一个阶段是从x0到xT,叫做扩散过程,第二个阶段是反过来,叫做重构过程。这个公式中的条件概率中,给定条件x0就可以被忽略,因为xt的状态只与xt-1时的状态有关。

2024-01-26 18:39:36 936

原创 VideoGPT:使用VQ-VAE和Transformers的视频生成

第二阶段,VQ-VAE将视频数据编码为隐序列作为先验模型的训练数据。首先从先验中采样隐序列,然后使用VQ-VAE将隐序列解码为视频样本。(Transformer的作用是引入条件,这里可以使用交叉注意力或者Conditional Norms:)整个训练过程如图所示,分为两个部分,训练VQ-VAE(左)和训练隐空间中的自回归Transformer(右)VQ-VAE能利用codebook机制把图像编码成离散向量。第一阶段与原始VQ-VAE训练过程类似。

2024-01-25 20:29:08 1530

原创 基于隐扩散模型的高分辨率图像生成

Diffusion model是一种likelihood-based的模型,相比GAN可以取得更好的生成效果。然而该模型是一种自回归模型,需要反复迭代计算,因而训练和推理都十分昂贵。本文提出一种diffusion的过程改为在latent space上做的方法,从而大大减少计算复杂度,同时也能达到十分不错的生成效果。除此以外,还提出了cross-attention的方法来实现多模态训练,使得class-condition, text-to-image, layout-to-image也可以实现。

2024-01-25 17:49:19 921

原创 基于隐流扩散模型的CI2V

条件图像到视频生成旨在从图像(例如,人脸)和条件(例如,动作类的标签,比如微笑)开始合成新的可信视频。cI2V任务的关键挑战在于同时生成与给定图像和条件相对应的真实空间外观和时间动态。本文中提出了一种使用新颖的潜流扩散模型(LFDM)的 cI2V 方法,该模型根据给定条件在隐空间中合成光流序列以扭曲给定图像。LFDM通过充分利用给定图像的空间内容,并根据生成的时间相干流在隐空间中进行扭曲,可以更好地合成空间细节和时间运动。LFDM的训练包括两个独立的阶段。

2024-01-24 21:51:35 842

原创 实现稳定的联合显著性检测和联合目标分割

Lv Tang;Mofei Song;

2024-01-11 20:29:47 937

原创 3D点云上的深度学习综述

3D 数据通常可以用不同的格式表示,包括深度图像、点云、网格和体积网格。作为一种常用的格式,点云表示保留了 3D 空间中的原始几何信息,没有任何离散化。因此,它是许多场景理解相关应用(例如自动驾驶和机器人技术)的首选表示。近年来,深度学习技术主导了许多研究领域,例如计算机视觉、语音识别和自然语言处理。然而,3D点云深度学习仍然面临一些重大挑战,例如数据集规模小、3D点云的高维性和非结构化性质。在此基础上,本文重点分析了已用于处理3D点云的深度学习方法。如图为3D 点云深度学习方法的分类。

2024-01-07 20:30:37 884

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除