深度学习相关算法学习
文章平均质量分 91
溯源006
以出世之心,行入世之事。躬耕于人工智能领域,特别是热衷于通用人工智能。
展开
-
Diffusion model原理:李宏毅篇(1)
本文是对李宏毅老师相关视频的记录。原创 2024-10-14 20:51:13 · 975 阅读 · 0 评论 -
stable diffusion系列(1)------概述
讲最经典的DDPM。原创 2024-10-13 21:38:28 · 508 阅读 · 0 评论 -
3b1b自注意力机制讲解记录
本文是对视频的整理。原创 2024-08-24 20:59:49 · 745 阅读 · 0 评论 -
循环神经网络RNN时间序列预测与MLP比较
batch_first 为 True时output的tensor为(batch_size,seq_len,hidden_size),否则为(seq_len,batch_size,hidden_size)# 初始化隐藏状态和细胞状态# 计算输出和最终隐藏状态通过模型定义可以看出以下几点:(1)RNN不需要定义序列长度:RNN用于处理序列数据,但是在模型定义中并没有定义序列长度是多少。这一点和MLP不需要定义batch size是一样的,batch size和序列长度。原创 2024-08-23 17:58:16 · 887 阅读 · 0 评论 -
变分自编码器(Variational AutoEncoder,VAE)
说到这块,不可避免地要讲起(AutoEncoder)自编码器。它的结构下图所示:据图可知,AE通过自监督的训练方式,能够将输入的原始特征通过编码encoder后得到潜在的特征编码,实现了自动化的特征工程,并且达到了降维和泛化的目的。而后通过对进行decoder后,我们可以重构输出。一个良好的AE最好的状态就是解码器的输出能够完美地或者近似恢复出原来的输入, 即。∣∣x−x∣∣AE的重点在于编码,而解码的结果,基于训练目标,如果损失足够小的话,将会与输入相同。原创 2024-01-17 21:26:19 · 1451 阅读 · 0 评论 -
变分推断(Variational Inference)
在贝叶斯体系中,指的是,即我们在已经输入变量x后,如何获得未知变量z的分布p(z|x)[3].通俗一点讲一个完整的故事就是,如果没有任何信息,我们可能大概了解一个(latent)变量z的分布,这个分布可能方差比较大。变量x是可观察的,并含有z的一些信息。那么在观察到x后,关于z的分布(此时是后验分布p(z|x))会发生变化,比如方差变得更小了,如下图所示。利用贝叶斯公式:[4]px∣z与pz可以做出必要的假设符合某个分布。px是已经观察到的,所以称为证据(evidence)。原创 2024-01-17 16:45:36 · 1647 阅读 · 0 评论 -
DDPM: Denoising Diffusion Probabilistic Models的白话总结
目前所采用的扩散模型大都是来自于2020年的工作。本文主要是对b站视频的记录和总结。该视频是目前见到的对DDPM讲述最为浅显易懂的,首先表达对视频作者的敬意,推荐看原视频,本文的讲述略去了一些比较常识性的东西,原视频非常值得看,会有很多收获。故记录总结之。对深入的知识进行本质的理解,并以形象、浅显、易懂的形式呈现出来,是毕生之追求。目前能力尚浅,有幸看到很多大神已经做出了很多漂亮的工作。所以先做好转呈记录。原创 2024-01-15 22:41:23 · 2525 阅读 · 0 评论 -
MoCo 与 CLIP
接下来就是我们通过一个模型得到一些特征,然后在这些特征上使用一些对比学习的目标函数就可以了。比如说。原创 2023-11-13 23:20:43 · 298 阅读 · 0 评论 -
MoCo视频笔记
1)CVPR2020最佳论文提名,视觉领域里使用对比学习的里程碑式的工作2)是无监督视觉表征学习,3)不仅在分类这个任务上逼近了有监督的基线模型,而且在很多主流的视觉任务上(比如检测、分割、人体关键点检测)都超越了有监督预训练的模型4)MoCo的出现证明了:无监督学习真的可以。不需要大量标好的数据去做训练1)对比学习2019年到现在机器学习领域最炙手可热的领域之一2)对比学习就是对比着学习,不需要知道类别,只需要知道上面两张图片类似,下面这张图片与上面的两张不类似。原创 2023-10-27 13:02:02 · 86 阅读 · 0 评论 -
关于交叉熵损失函数以及几个类似的损失函数
交叉熵度量了两个分布的差异的大小。p和q差异越大H(p,q)就越大,差异越小,H(p,q)就越小。当p=q时最小,此时交叉熵变为p的熵。原创 2023-10-27 12:41:56 · 184 阅读 · 1 评论 -
朱毅大神对Visual Transformer论文的精读记录与总结
将NLP领域的transformer转到视觉领域,通过将图像分割成多个patch的方法将图片序列化,其他与transformer一样。取得了很好的效果。但是在小数据集上没有CNN好。扩大数据集后效果超过CNN。原创 2023-04-06 20:39:35 · 412 阅读 · 0 评论 -
GPT系列总结
GPT1,GPT2,GPT3简介,后续持续更新原创 2023-04-03 18:28:54 · 392 阅读 · 1 评论 -
台大李宏毅自注意力机制和Transformer详解(续)!
1)Transformer是变形金刚的意思,与BERT有很强的关联。2)Transformer是一个sequence-to-sequence(seq2seq)的模型,输出长度由模型自己决定3)encoder部分主要是self-attention,另外采用了残差网络构架和layer normalization4)decoder由AT和NAT两种方式。需要定义BEGIN和END特殊符号。AT的方式一开始是输入BEGIN符号,最后预测产生了END符号结束。原创 2023-03-29 21:27:31 · 469 阅读 · 0 评论 -
台大李宏毅机器学习课程之BERT记录
1)BERT是自监督的学习,不需要人工标注的标签,所以其实也是无监督学习的一种方式2)BERT的主干网络就是tranformer的encoder部分,所以BERT使用了self-attention的机制3)BERT主要采用完形填空的方式。就是输入一句话,随机遮住某个词,然后预测遮住的词。这种方式其实很好的考虑了上下文,或者说就是基于上下文的语境来表示词的意思。实验证明这种方式得到了一种很好的embedding的方式4)BERT可以很好的用于下游任务。原创 2023-04-01 14:56:54 · 263 阅读 · 0 评论 -
台大李宏毅自注意力机制和Transformer详解
本文主要是记录李宏毅老师机器学习课程中关于self-attention部分的记录。原创 2023-03-25 13:06:40 · 784 阅读 · 1 评论