Optimization
文章平均质量分 81
优化论、损失函数
NLP_wendi
这个作者很懒,什么都没留下…
展开
-
如何在多块GPU上训练大模型,How to Train Really Large Models on Many GPUs?
今天来看一篇工程优化文章,关于如何在多块GPU上训练大模型,作者Lilian Weng现为OpenAI应用人工智能研究负责人,主要从事机器学习、深度学习和网络科学研究。原文链接:How to Train Really Large Models on Many GPUs?Training ParallelismData ParallelismDP最朴素的方法是复制相同的模型权重参数到多个workers上,给每个worker一部分数据来同时处理。如果模型size大于单个GPU节点内存时,这种方法是不能原创 2022-04-24 11:31:00 · 2148 阅读 · 0 评论 -
对抗学习常见方法代码实现篇
原理篇可参考:对抗学习概念、基本思想、方法综述FGM类定义class FGM(): def __init__(self, model): self.model = model self.backup = {} def attack(self, epsilon=1., emb_name='emb.'): # emb_name这个参数要换成你模型中embedding的参数名 for name, param in s原创 2022-04-17 17:24:16 · 1221 阅读 · 1 评论 -
对抗学习概念、基本思想、方法综述
对抗学习的基本概念要认识对抗训练,首先要了解 “对抗样本”,它首先出现在论文 Intriguing properties of neural networks 之中。简单来说,它是指对于人类来说 “看起来” 几乎一样,但对于模型来说预测结果却完全不一样的样本,比如下面的经典例子(一只熊猫加了点扰动就被识别成了长臂猿)对抗学习的基本思想Min-Max公式:max函数指的是,我们要找到一组在样本空间内、使Loss最大的的对抗样本(该对抗样本由原样本x和经过某种手段得到的扰动项r_adv共同组合得到原创 2022-04-16 20:28:02 · 20490 阅读 · 0 评论 -
When Does Label Smoothing Help?
原文链接:When Does Label Smoothing Help?Hinton老师的这篇paper,说明了标签平滑策略为什么是有效的。摘要原创 2022-04-13 15:58:47 · 2273 阅读 · 0 评论 -
常见损失函数 loss function
0-1 损失函数L(Y,f(x))={1,Y≠f(x)0,Y=f(x)L(Y,f(x))=\left\{\begin{aligned}&1, && Y \ne f(x) \\&0, && Y = f(x)\end{aligned}\right.L(Y,f(x))={1,0,Y=f(x)Y=f(x)绝对值损失函数L(Y,f(x))=∣Y−f(x)∣L(Y,f(x))=\vert{Y-f(x)}\vertL(Y,f(x))=∣Y−f(x原创 2022-03-23 10:15:14 · 156 阅读 · 0 评论