自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 进击的Transformer --- 一文介绍Efficient Transformers

文章目录Transformer的好处及复杂度Transformer变种的几大流派ReformerLongformer, Big bird, LinformerPerformerTransformer的好处及复杂度Transformer今天多么的火这里就不用多说了。每个节点对每个节点的注意力机制保证了长程无损耗的信息传递。从图神经网络的观点来看,它是一个全连接的完全图。为什么它在NLP领域中如此有效?这是因为它足够复杂,以至于满足了语言内生的复杂性。引用史蒂芬平克的对写作的定义:… the writer

2021-03-06 01:56:52 2192

原创 Learning to Summarize from Human Feedback

从人工反馈中学写摘要前言Seq2Seq序列-序列模型痛点Exposure biasMetrics图灵测试如何解决问题OpenAI的方案万能架构 GPT3最佳policy gradient算法实验展望前言OpenAI前一段又搞了个大新闻: 他们利用人工反馈的干预,产生出了质量大大超过人力生成的摘要论文。 到底好成什么样呢, 有图为证:实验是这样的,OpenAI请了一些人来做labeler,每次给他们一对摘要,让他们判断哪个比较好一些。可以想见,如果每次都给一对同样是人力生成的摘要,那么大概50%的时间会

2020-11-29 08:01:42 1980

原创 Zero-shot 机器翻译 和 无监督条件GAN

这个题目很拗口。我的本意是说这两个东西:零样本的机器翻译,和无监督条件GAN 其实很像,如果抛开二者的domain不同(一个是NLP,一个一般是在图像领域),这两者简直一模一样。目录无监督学习zero-shot机器翻译无监督条件GAN效果相似无监督学习Yann Lecun多次提到这样的类比: 如果把“智能”(intelligence)比作一个蛋糕,那么无监督学习就是蛋糕本体,监督学习是蛋糕上的糖霜,而增强学习是蛋糕上的樱桃。我们知道如何得到糖霜和樱桃,但不知道怎样做蛋糕。 今天少样本甚至零样本的学习,

2020-07-24 11:35:15 1202

原创 TransCoder介绍

TransCoder介绍无监督的代码转换无监督机器翻译XLM字典-- BPE两种预训练去噪编码和回译TransCoder三部曲XLM: 预训练编码器和解码器Denoising auto-encoding: 训练同语种"翻译"Back-translation: 训练跨语种翻译测试集效果总结人工智能如果能写代码的话那可能就是程序员的噩梦了。不过也许人们可以把更多的精力放在真正创造性的工作上去,比如移民火星什么的。Facebook的TransCoder虽然不能解放人类,但是也算朝这个方向迈出了坚实的一步。无监

2020-06-20 07:56:14 3999 2

原创 基于的BERT的一些改进模型及思路

基于的BERT的一些改进模型及思路被遗弃的NSPUnderfitted的BERT数据和批大小的作用Drop掉dropout减少参数的技术嵌入层的参数化方法-- 矩阵分解层间共享参数改头换面的MLM动态掩码ELECTRA再次证明分类任务的优势插入链接与图片如何插入一段漂亮的代码片BERT的成功主要在于几大因素:超大模型+超大语料;利用Transformer;新的Loss即MLM(Masked La...

2020-01-21 08:05:31 7528 1

原创 XLNet:通用自回归预训练方法

XLNetAR和AEXLNet的比较优势Transformer-XLTransformer 到底慢不慢语言模型里的Transformer一句话总结XL相对位置 编码FLowchart流程图导出与导入导出导入BERT(前文有介绍)火了以后XLNet算是首个真正意义上能和其叫板的工作了。在20个任务上都超过BERT,其中很多还是大幅的超越。AR和AE作者首先对今天NLP的主流预训练方法进行了分类...

2019-07-05 03:47:32 3402

原创 MASS: 一统GPT和BERT的Seq to Seq框架

MASS: 一统GPT和BERT的Seq to Seq框架MASS功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入MA...

2019-05-20 07:06:09 3072

原创 IRGAN

IRGANGAN的新领域功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入GAN的新领域最近BIGGAN又让GAN火了...

2019-05-03 13:06:55 1979

原创 多语种句子嵌入

2018年底FAIR出了一个[爆款](Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond)

2019-01-24 05:30:18 1394

原创 强化学习里的好奇心

去年有一篇利用好奇心驱动进行exploration的强化学习文章很有意思(Curiosity-driven Exploration by Self-supervised Prediction)。在大多数真实世界的问题中,外在世界的激励(reward)往往极其稀疏,甚至缺失。得不到反馈的agent则缺乏有效的机制更新自己的策略函数(policy)。 在这种情况下,文章提出了利用内在的好奇心来驱动对世...

2018-12-16 15:12:56 6960 5

原创 BERT介绍

这篇介绍以下最近大热的[BERT](https://arxiv.org/pdf/1810.04805.pdf),它在11个NLP任务中刷新了成绩,效果确实惊人。

2018-10-20 12:32:53 86279 10

原创 ULMFiT

ULMFiT文本分类器ULMFiT是什么新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入上篇介绍了ELMo。E...

2018-09-30 09:14:30 5346 1

原创 ELMo算法介绍

这篇介绍一下ELMo算法(论文)。按道理应该加入前面的《关于句子embedding的一些工作简介》系列,但是因为一不小心让我写完结了 :) 所以干脆另写一篇吧。不过从实验效果和重要性来讲,这篇论文也值得好好介绍一下。Introduction 作者认为好的词表征模型应该同时兼顾两个问题:一是词语用法在语义和语法上的复杂特点;二是随着语言环境的改变,这些用法也应该随之改变。作者提出了deep c...

2018-09-17 02:13:09 55227 13

原创 InferSent的代码实现

我最近抽空完成了一个新的github项目–InferSent 。 前面的文章有过介绍。我实现它的原因有二:一是因为算法本身简单,二是以为它在各种NLP任务上可以和其他state-of-art的模型对标。InferSent的模型结构如下: InferSent选择了NLI任务用来训练句子embedding,对应的数据集是SNLI,前文有介绍,这里不再赘述。 作为premise和hypothe...

2018-08-28 11:59:06 3156 2

原创 关于句子embedding的一些工作简介(五)---- 从对话中学习

这是《简介》系列的最后一篇文章。原本我是想写一下Universal Sentence Encoder这篇文章,但是从方法的新颖上来讲,它不如同样的这批作者所写的Learning Semantic Textual Similarity from Conversations。论文方法 论文基于这样的观察:在对话中,如果两个问句的回答是相似的,那么这两个问句的相似度就高。比如”How old ar...

2018-08-27 06:41:24 2322

原创 关于句子embedding的一些工作简介(四)---- Quick Thoughts

Quick Thoughts(以下简称QT 论文)可以理解为升级版本的Skip-thought,方法简单很多,但是在效果上可以和InferSent比较,成为state-of-art的算法。Skip-thought 了解QT绕不开Skip-thought(论文)。Skip-thought顾名思义,可以理解为句子版本的Skip-gram(word2vec论文)。在word2vec算法的skip...

2018-08-13 01:55:01 2538 2

原创 关于句子embedding的一些工作简介(三)---- Concatenated p-mean Word Embeddings

这篇论文产生sentence embedding的方法非常简单,但是效果并不差,算是极简主义的一次胜利。由于其简单易操作,尽管过去由一些论文自称为hard/tough-to-beat的baseline,作者把自己的工作称为一个much harder-to-beat baseline。从实际效果看,此言不虚。 最简单的求sentence embedding的方法是对句子里所有的单词embeddin...

2018-07-31 11:09:09 3058

原创 关于句子embedding的一些工作简介(二)---- InferSent

书接上回。这篇文章介绍一下2017年影响力非常大的一篇论文 : Supervised Learning of Universal Sentence Representation from Natural Language Inference Data, by Alexis Conneau et al. 迄今为止它在NLP很多任务上都取得了state of art的成绩。贡献实验...

2018-07-25 10:26:29 4190

原创 关于句子embedding的一些工作简介(一)

关于句子embedding的一些工作简介(一)对于NLP方面的工作来讲,毫无疑问词嵌入(word embedding)是最重要的基石。然而人们往往最关心的是如何利用词嵌入表达好一个句子或者一段话,也就是如何找到sentence embedding, 或者paragraph embedding过去的一些解决方案Bag of Words 最直观的想法是忽略句子里词语的顺序,从而把它...

2018-07-17 17:03:09 8157

原创 一个Hierarchical Attention神经网络的实现

最近我突然有了一些富余的整块时间。于是我实现了一些有意思的论文的idea, 其中印象最深的还是《Hierarchical Attention Networks for Document Classification》。我把相关代码放到这里了: https://github.com/triplemeng/hierarchical-attention-model综述今天,基本上所有的NLP方面的应用,

2017-10-18 09:12:23 11747 22

原创 AI Programmer: 用基因算法生成程序 简介

最近有篇文章《AI Programmer: Autonomously Creating Software Programs Using Genetic Algorithms》火了,它主要是利用基因算法生成代码。没准儿以后能称为程序员居家旅行之必备。按说这个和深度学习一点关系都没有,但是我还是决定蹭个热度,写一写这篇文章刷一刷存在感。:)基因算法,用高大上的词汇来说,属于机器学习(或者人工智能)

2017-09-21 10:00:10 1318 2

原创 深度自学

这两年常有朋友问我该怎么学习deep learning,要我推荐资料。为了省事,全都总结在这里吧。首先推荐Ian Goodfellow, Yoshua Bengio等人合作的新书。两位都是大神,Bengio是我最喜欢的学者,他的研究领域涵盖了DL所有的方向,而且在每个方向都做得非常顶尖;Goodfellow因为提出了这两年大热的GAN也一战封神。这本书涵盖了所有最fundamental的东

2017-09-17 06:55:34 662 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除