自然语言处理
qq_37650969
这个作者很懒,什么都没留下…
展开
-
pytorch MultiheadAttention 出现NaN
if attn_mask is not None: if attn_mask.dtype == torch.bool: attn_output_weights.masked_fill_(attn_mask, float('-inf')) else: attn_output_weights += attn_mask使用MultiheadAttention做self-attention时因为batch内序列长度不一致,...原创 2021-03-20 20:11:08 · 4656 阅读 · 12 评论 -
SeqNet论文笔记
本文默认读者对GAN有基本的了解,对以下公式:(1)了然于胸,其中D代表Discriminator,G代表Generator,表示真实数据的密度函数,一般为噪声的密度函数。GAN在模拟连续变量的分布中表现得不错,但无法直接应用于离散变量,因为Generator往往最终通过softmax函数输出一个关于所有离散点的概率向量,无法生成one-hot形式输出,足够好的D可以轻易的区分出合成数据和...原创 2019-09-08 16:53:29 · 909 阅读 · 0 评论