![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习基础知识
真炎破天
这个作者很懒,什么都没留下…
展开
-
数学公式推导——理解梯度消失和梯度爆炸
梯度消失和梯度爆炸的数学公式解释原创 2023-01-02 23:00:08 · 1091 阅读 · 0 评论 -
文本生成相关的评测指标
一、文本生成相关任务翻译对话生成自动文摘image2caption二、文本生成评测指标BLEURougeNISTMETEORTER2.1 BLUE2.2 Rougereferencehttps://zhuanlan.zhihu.com/p/150057895原创 2021-09-26 10:49:42 · 619 阅读 · 0 评论 -
李弘毅深度学习笔记
最大似然估计 等效于 最小KL散度监督学习的本质是学习一个概率分布函数,使它的分布能够与真实数据的分布高度相识。由于真实的分布(记为Pdata)我们不知道,但是我们可以获取真实分布的样本,通过这些样本来学习一个概率分布函数PG。最大似然估计是认为当前样本集出现的概率应该是最大的;而最小KL散度认为, 模型学习的概率分布和真实的数据分布越接近,模型就更能真实的表示数据分布,两者是殊途同归的GAN模型的学习本质GAN模型的本质是学习一个generator,使generator的生成的数据分布和真实的分.原创 2021-09-25 23:22:22 · 124 阅读 · 0 评论 -
理解损失函数
常用损失函数:CE 交叉熵MSE 均方差KL散度问题一:模型蒸馏,对logits拟合为什么用CE而不用MSE之所以使用soft label而不是hard label进行蒸馏,是因为soft label中包含了较hard label更丰富的信息,即类内关系和类间关系都可以通过soft label进行体现。目前的大部分蒸馏loss的设计主要借鉴Hinton之前的"知识蒸馏"中的做法,即softmax + cross entropy,对logits进行蒸馏;还可以使用超参温度对softmax的输原创 2021-09-22 23:13:35 · 768 阅读 · 0 评论 -
pytorch分布式训练理解
单机多卡训练配置每个进程的gpuddp模式local_rank = torch.distributed.get_rank() # 获取当前进程在所有进程中的编号torch.cuda.set_device(local_rank) # 等效使用CUDA_VISIBLE_DEVICES=local_rank,即指定当前进程使用的gpu编号device = torch.device("cuda", local_rank) ## 表示 torch.Tensor 分配到指定编号的设备device = t原创 2021-08-26 10:49:48 · 315 阅读 · 0 评论 -
pytorch-lightning使用笔记
tips汇总在DataLoader中采用多进程,进程数一般满足:num_worker = 4 * num_GPUPin memory使用。原因是部分显存被预留,不能被使用。使能Pin memory可以避免这种情况。等效torch中的torch.cuda.empty_cache()data_loader = DataLoader(dataset, num_workers=8, pin_memory=True)避免tensor从CPU转移到GPU不提倡调用.item(), .numpy(),原创 2021-08-25 15:42:43 · 681 阅读 · 0 评论