triplemeng-CSDN博客

原创进击的Transformer --- 一文介绍Efficient Transformers

文章目录Transformer的好处及复杂度Transformer变种的几大流派ReformerLongformer, Big bird, LinformerPerformerTransformer的好处及复杂度Transformer今天多么的火这里就不用多说了。每个节点对每个节点的注意力机制保证了长程无损耗的信息传递。从图神经网络的观点来看，它是一个全连接的完全图。为什么它在NLP领域中如此有效？这是因为它足够复杂，以至于满足了语言内生的复杂性。引用史蒂芬平克的对写作的定义：… the writer

2021-03-06 01:56:52 2449

原创 Learning to Summarize from Human Feedback

从人工反馈中学写摘要前言Seq2Seq序列-序列模型痛点Exposure biasMetrics图灵测试如何解决问题OpenAI的方案万能架构 GPT3最佳policy gradient算法实验展望前言OpenAI前一段又搞了个大新闻: 他们利用人工反馈的干预，产生出了质量大大超过人力生成的摘要论文。到底好成什么样呢，有图为证：实验是这样的，OpenAI请了一些人来做labeler，每次给他们一对摘要，让他们判断哪个比较好一些。可以想见，如果每次都给一对同样是人力生成的摘要，那么大概50%的时间会

2020-11-29 08:01:42 2183

原创 Zero-shot 机器翻译和无监督条件GAN

这个题目很拗口。我的本意是说这两个东西：零样本的机器翻译，和无监督条件GAN 其实很像，如果抛开二者的domain不同(一个是NLP，一个一般是在图像领域)，这两者简直一模一样。目录无监督学习zero-shot机器翻译无监督条件GAN效果相似无监督学习Yann Lecun多次提到这样的类比: 如果把“智能”（intelligence）比作一个蛋糕，那么无监督学习就是蛋糕本体，监督学习是蛋糕上的糖霜，而增强学习是蛋糕上的樱桃。我们知道如何得到糖霜和樱桃，但不知道怎样做蛋糕。今天少样本甚至零样本的学习，

2020-07-24 11:35:15 1324

原创 TransCoder介绍

TransCoder介绍无监督的代码转换无监督机器翻译XLM字典-- BPE两种预训练去噪编码和回译TransCoder三部曲XLM: 预训练编码器和解码器Denoising auto-encoding: 训练同语种"翻译"Back-translation: 训练跨语种翻译测试集效果总结人工智能如果能写代码的话那可能就是程序员的噩梦了。不过也许人们可以把更多的精力放在真正创造性的工作上去，比如移民火星什么的。Facebook的TransCoder虽然不能解放人类，但是也算朝这个方向迈出了坚实的一步。无监

2020-06-20 07:56:14 4265 2