深度学习
文章平均质量分 64
深度学习
Are_you_ready
这个作者很懒,什么都没留下…
展开
-
GAMES Webinar 317-渲染专题-图形学 vs. 视觉大模型|Talk+Panel形式
sora如此强大,传统图形学是否与到了大挑战?闫令琪:它是有缺陷的,比如会凭空多东西,少东西,这些缺陷可能在这个时代,在sora表现这么好的情况下,可以容忍,但它是不好解决的,因为它是神经网络控制的,不是那么可控。sora它现在是一个快速发展阶段,但它一定会进入瓶颈期的,包括传统的渲染生成,也进入过瓶颈期,也就是从0到90,快速发展,但最后10是很难完成的,比如比较好的控制,小瑕疵的解决。原创 2024-04-07 13:57:42 · 670 阅读 · 0 评论 -
MotionCtrl: A Unified and Flexible Motion Controller for Video Generation
在视频中,运动主要包括由相机运动引起的相机运动和由物体运动引起的物体运动。对这两种运动的精确控制对于视频生成至关重要。然而,现有的工作要么主要关注一种类型的运动,要么没有明确地区分两者,从而限制了其控制能力和多样性。原创 2024-03-11 20:56:07 · 967 阅读 · 0 评论 -
LVDM(Latent Video Diffusion Models for High-Fidelity Long Video Generation)
这个操作就是不拿z0进行条件化,而是拿任意时间s(s属于时间步t内的值),zs作为训练期间的条件,即不是拿zi0去做条件,而是拿zis去做条件。尽管上述分层生成方式可以减少自回归步骤的数量,以克服质量下降的问题,但为了生成足够长的视频样本,更多的预测步骤是必不可少的。因此,我们提出了一个条件潜在扩散模型,该模型可以以自回归的方式根据前一个潜在码生成未来潜在码,以促进长视频的生成。给每个编码帧添加一个掩码m,m为1则为条件帧,需要将这个帧替换为没有加噪的帧,也就是替换为zi0。感觉也是在分层插帧那用到。原创 2024-03-11 10:06:50 · 855 阅读 · 0 评论 -
DDPM代码复现
主要参考这个博主的代码。翻译 2023-12-18 10:34:36 · 247 阅读 · 0 评论 -
一些损失函数的学习
当在做一个机器学习目标函数时,用交叉熵或KLD单独来看效果是一样的,因为信息熵如果是一个delta(one-hot)分布,那它的值就是0,如果是一个非delta分布,那它也是一个常数,常数对于神经网络的参数更新是没有任何贡献的,所以优化交叉熵loss和KLDloss效果是一样的,只不过数值上不一样(如果目标是delta分布,那数值也一样,这个时候用KLD时把target转换为one-hot向量就可以了)例如,如果一个随机变量只能取一个值,那么其熵为0,因为这个事件发生的概率是1,没有不确定性。原创 2023-11-20 11:04:26 · 229 阅读 · 0 评论 -
DDPM的学习
训练集数据集,像midjourney、stable diffusion、DALL都是用的第三个数据集50多亿张训练图片。训练部分的修改,也是在去噪过程中将文章资料给Denoising Model,这代表Denoising有三个输入。而Noising Predicter部分也直接加入文字资料。直接将文字输入到Denoising Model。还是需要文字标签和图片两种信息的资料。原创 2023-11-20 10:47:30 · 159 阅读 · 0 评论 -
卷积神经网络各种经典模型--下篇
此外,在 Inception v3 之后,还加入了一种称为 “分支并行结构” 的设计,可以在不同的分支中使用不同的卷积核大小和数量,以进一步提高模型的性能。它的核心是使用 Inception 模块来构建网络结构,每个 Inception 模块由多个不同的卷积层组成,这些卷积层并行执行,并将它们的输出连接在一起,以产生更丰富的特征表示。Inception 是由 Google 提出的卷积神经网络模型,它的核心思想是使用多个不同大小的卷积核来捕捉不同尺度的特征,以提高模型的性能和准确性。原创 2023-04-04 12:38:04 · 128 阅读 · 1 评论 -
卷积神经网络CNN每一层结果
https://poloclub.github.io/cnn-explainer/原创 2023-04-03 21:21:38 · 93 阅读 · 0 评论 -
卷积神经网络各种经典模型--上篇
LeNet,全名LeNet-5,是由Yann LeCun、Leon Bottou、Yoshua Bengio和Patrick Haffner于1998年设计的卷积神经网络(CNN)架构。LeNet包含七个层,包括三个卷积层和两个子采样(池化)层。该网络的输入是数字图像,输出是对该数字的分类预测。在训练过程中,LeNet使用反向传播算法来调整网络中的参数,以最小化分类误差。LeNet的设计对现代深度学习技术有着深远的影响,奠定了卷积神经网络在图像处理领域的基础。原创 2023-04-03 17:36:09 · 379 阅读 · 0 评论 -
机器学习中的正则
需要注意的是,L1和L2正则化都是在损失函数中加入一个正则化项,目的是使模型的权重不要过大,从而避免模型的过拟合。L1正则化和L2正则化的不同点在于,L1正则化可以产生稀疏权重矩阵,而L2正则化不会产生稀疏权重矩阵。常用的正则项包括L1正则化和L2正则化,它们分别基于模型参数的绝对值和平方值来惩罚模型的复杂度。L2正则化对权重的更新是连续的,没有不连续的点,因此可以用于梯度下降等基于导数的优化算法中。L1正则化对权重的更新是不连续的,即对于某些权重会直接变为0,因此可以用于稀疏性特征的处理。原创 2023-04-03 17:26:48 · 251 阅读 · 0 评论 -
卷积层里的多输入多输出通道
如果图像的输入是一个RGB类型图像,那么就么ci=3,如果是个灰色图像那么ci=1。每一个nh × nw都要对应一个kh × kw,算出的结果对应相加形成mh × mw。当输入有第三维ci时,想要输出的也有三维,那么就要再加一个co维,co为几可以认为有几个卷积核,最后生成对应的几个特征图。原创 2023-04-03 15:36:42 · 72 阅读 · 0 评论 -
在卷积神经网络中如何解决梯度下降时的局部最优解问题
1、更深的网络结构:深度越深的神经网络通常有更多的参数,因此有更大的空间可以搜索全局最优解。5、自适应学习率:自适应学习率可以根据每个参数的历史梯度值来调整学习率大小,从而更好地平衡全局和局部优化。3、预训练网络参数:预训练可以将网络的参数初始化到接近全局最优解的位置,这样可以更快地收敛到全局最优解。2、数据增强:数据增强可以增加数据量,减少过拟合的发生,从而减少陷入局部最优解的可能性。4、正则化:正则化可以限制模型的复杂度,减少过拟合的风险,从而更好地避免陷入局部最优解。原创 2023-03-30 22:24:29 · 769 阅读 · 0 评论