![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
kaiyuan_sjtu
这个作者很懒,什么都没留下…
展开
-
假如BERT系论文变成Commit History
最近,我在Twitter上发现了一个有趣的话题,假设有这样一个场景,论文研究在GitHub上发布,而后续论文则会提交与原始论文不同之处。在人工智能机器学习领域,信息过载一直是一个大问题,每个月都有大量新论文发表,这样的通过commit history展示方式或许会给你带来眼前一亮。下面我们就来蹭蹭大明星BERT的热度,来看看这一场景应用到BERT系论文会是什么样子的?commit arXiv:1810.04805Author: Devlin et al.Date: Thu Oct 11 00:原创 2020-05-16 10:42:08 · 972 阅读 · 0 评论 -
BERT微调效果不佳?不如试试这种大规模预训练模型新范式
BERT模型自发布至今已整整两年了,但是其余热仍未消减。从一经问世的轰动,简单应用/微调便可达到某个领域或者任务的SOTA效果;到如今的各种『被吊打』,BERT巨人肩膀上的新宠大致可以分...原创 2020-11-23 11:59:00 · 1485 阅读 · 0 评论 -
NLP简报(Issue#9)
文章目录1、Research and Publications ????1.1 RONEC1.2 小样本学习综述1.3 Scaling Laws for Neural Language Models1.4 预训练Transformers校准1.5 深度学习的统计学1.6 Speech-to-Text的ImageNet时刻2、Creativity, Ethics, and Society ????2.1 浏览和...原创 2020-04-14 21:33:26 · 3743 阅读 · 0 评论 -
更小的模型,迈向更快更环保的NLP
写在前面越大的模型总是越好吗? 长期以来,在屠虐各大排行榜的驱动下,NLP players对此问题的答案似乎是肯定的。 从Google于2018年10月发布BERT(基本版本为1.1亿个参数)到Salesforce于2019年9月发布的CTRL(16.3亿个参数),直到微软最近发布的T-NLG(170亿个参数),语言模型规模的增长似乎势不可挡。相反地,NLP社区中也存在推动较小模型发展的趋势,...原创 2020-04-10 11:38:09 · 2365 阅读 · 0 评论 -
为什么BERT在商业环境碰壁?
本文首发于微信订阅号:NewBeeNLP,欢迎关注获取更多干货资源。大型基于Transformer的神经网络,例如BERT,GPT和XLNET,最近在许多NLP任务中取得了最新的成果。 这些模型的成功基于通用任务(例如语言建模)和特定下游任务之间的迁移学习, 这些模型在有标记数据的静态评估集上表现出色。 但是,在动态商业环境中部署这些模型通常会产生较差的结果。 这是因为商业环境通常是动态的,并且...原创 2020-04-04 15:28:57 · 2982 阅读 · 0 评论 -
NLP简报(Issue#7)
欢迎来到NLP简报第七期。 ❤️ ???? ????文章目录1、Research and Publications ????1.1 合成泛化1.2 微调预训练语言模型1.3 Zoom In1.4 NLP Research Highlights1.5用图网络模拟复杂物理1.6 特定语言BERT模型2、Creativity, Ethics, and Society ????2.1 COVID-19相关的蛋白质结构的计算预测...原创 2020-04-03 14:28:25 · 1023 阅读 · 0 评论 -
NLP简报(Issue#8)
本文首发于微信公众号:NewBeeNLP,欢迎关注获取更多干货资源。欢迎来到 NLP 时事简报第八期!全文较长,建议收藏。如果想让自己有趣的研究/项目出现在NLP简报中,欢迎在公众号后台留言联系我来看看都有哪些内容,enjoy~文章目录本文首发于微信公众号:NewBeeNLP,欢迎关注获取更多干货资源。1、Research and Publications ????1.1 上下文嵌入以及预训练模...原创 2020-03-31 19:29:43 · 908 阅读 · 0 评论 -
BART原理简介与代码实战
写在前面最近huggingface的transformer库,增加了BART模型,Bart是该库中最早的Seq2Seq模型之一,在文本生成任务,例如抽象总结方面达到了SOTA的结果。本次放出了三组不同的预训练权重:bart-large:基础预训练模型;bart-large-cnn:基础模型在 CNN/Daily Mail Abstractive Summarization Task微调...原创 2020-03-27 21:53:46 · 9926 阅读 · 4 评论 -
我从AI For Everyone学到的十个重要AI 概念
在这个人机共存的年代,每个人都应该去尝试了解并运用人工智慧这个超能力。思考自己未来在这个变化快速的世界的定位原创 2020-03-21 18:00:01 · 922 阅读 · 0 评论 -
微软UNILM 2.0:优雅的统一预训练模型
写在前面印象中Illustrating XXX系列的文章感觉都很有趣,这次就来标题党一把哈哈,不好勿喷~刷arxiv看到了之前比较喜欢的一个工作UNILM的续集,这不得提高优先级先来品品(虽然还有一大堆TODO)。关于UNILM 1.0 在之前的文章中已经有介绍了,见站在BERT肩膀上的NLP新秀们(PART II),这种做到NLU和NLG简洁统一的框架真的是非常赞!目前NLP预训练模型主要...原创 2020-03-19 15:59:46 · 10956 阅读 · 0 评论 -
Transformers Assemble(PART V)
写在前面 Set Transformer from OX,ICML2019 Star-Transformer from FDU,NAACL 2019Set Transformer: A Framework for Attention-based Permutation-Invariant Neural NetworksNLP的输入基本都是有顺序性的,但是还有很多机器学习任务的输入都是顺...原创 2020-03-10 17:26:51 · 998 阅读 · 0 评论 -
NLP简报(Issue#6)
本文首发于公众号:NewBeeNLP欢迎来到 NLP 时事简报第六期!全文较长,建议收藏。如果想让自己有趣的研究/项目出现在NLP简报中,欢迎在公众号后台留言联系我来看看都有哪些内容,enjoy~文章目录1、Publications ????1.1 BERT综述1.2 T51.3 12合1:多任务视觉和语言表示学习1.4 BERT文本表示的跨模式可传递性2、Creativity and Soc...原创 2020-03-05 15:33:30 · 1185 阅读 · 0 评论 -
Transformers Assemble(PART IV)
写在前面 Sparse Transformer from OpenAI,NAACL 2019 Adaptively Sparse Transformers,EMNLP2019Generating Long Sequences with Sparse Transformers来自OpenAI的工作,同样关注于原始Transformer的计算复杂度问题,尤其是在面对长序列输入的情况。为此,...原创 2020-02-24 21:24:53 · 2314 阅读 · 0 评论 -
NLP简报(Issue#4):Turing-NLG、REALM、ERNIE-GEN、Transformer attention可视化等等
欢迎来到 NLP 时事简报!全文比较长,建议收藏慢慢看。另外加了目录方便直接索引到自己感兴趣的部分。enjoy文章目录1、Publications ????1.1 Turing-NLG: A 17-billion-parameter language model by Microsoft1.2 Neural based Dependency Parsing1.3 End-to-end Cloud-b...原创 2020-02-20 13:22:08 · 2550 阅读 · 0 评论 -
Transformer Assemble(PART III)
写在前面 Reformer from Google,ICLR2020REFORMER: THE EFFICIENT TRANSFORMER经过之前一段时间的NLP Big Bang,现在相对比较平静了,Transformer系已经占据了绝对的主导地位,在各类应用中表现出色。尽管如此,传统的Transformer仍然存在着一些问题,比如内存占用大、计算复杂度大、无法较好处理长文本等。针对以...原创 2020-02-20 13:18:16 · 2267 阅读 · 0 评论 -
NLP简报(Issue#1)
欢迎来到船新栏目NLP简报,本新闻简报的目的是让你不必花费太多时间就可以了解与NLP和ML有关的一些有趣和最新的故事。如果想让自己有趣的研究/项目出现在NLP简报中,随时在公众号后台留言联系我文章目录1、Publications ????1.1 用于乳腺癌筛查的AI系统1.2 信息抽取1.3 Improved recommendations2、Creativity and Society ????2....原创 2020-02-18 11:27:56 · 1969 阅读 · 0 评论 -
NLP简报(Issue #3)
欢迎来到NLP时事简报!第三期涵盖了诸如改进会话代理、特定语言BERT模型、免费数据集、深度学习库等主题。1、Publications ????1.1 Language-specific BERT models我已经记不清现在有多少种特定语言的BERT模型了,这里有一些最新的版本:荷兰语Dutch BERT(RobBERT| BERTje)德语German BERT葡萄牙语Portugu...原创 2020-02-15 16:35:49 · 3828 阅读 · 0 评论 -
Transformers Assemble(PART II)
写在前面 Set Transformer from OX,ICML2019[x]Set Transformer: A Framework for Attention-based Permutation-Invariant Neural NetworksNLP的输入基本都是有顺序性的,但是还有很多机器学习任务的输入都是顺序无关的set-structure data,比如多示例学习(mul...原创 2020-02-15 10:23:28 · 3265 阅读 · 0 评论 -
多角度理解CNN
博客主题图像FilterFilter作用图像后结果如何得到?等式角度神经网络角度矩阵乘法角度上图的矩阵可以看成是传统神经网络中的权重矩阵,但是有两点不同:灰色显示的0是不可训练的,这意味着它们在整个优化过程中保持为零;有些权重是相等的,虽然它们是可训练的(即可改变的),但它们必须保持相等。这些被称为“共享权重”。Dense神经网络角度这一角度可以更好理...原创 2020-02-14 10:40:58 · 3232 阅读 · 0 评论 -
Transformers Assemble(PART I )
写在前面 Bi-BloSAN from UTS,ICLR2018 Universal Transformers from UVA&Google,ICLR20191、BI-DIRECTIONAL BLOCK SELF-ATTENTION FOR FASTAND MEMORY-EFFICIENT SEQUENCE MODELING这篇论文首先分析了目前几大类特征抽取器CNN、RN...原创 2020-02-07 17:09:20 · 2910 阅读 · 0 评论 -
基于句子嵌入的无监督文本摘要(附代码实现)
写在前面最近总算是忙完了毕业论文的事情,也放松了一段时间,很久没有写博客了。之前逛Medium有收藏了很多有意思的文章,就做个搬运和大家一起学习。这篇文章主要介绍的是作者做的一个对多种语言的邮件进行无监督摘要抽取的项目,非常详细。文本摘要也是非常有意思的NLP任务之一,可能之后会涉及相关的项目,所以就先提前学习啦~A Glance at Text Summarization文本摘要是从一个...原创 2020-01-14 21:42:04 · 4953 阅读 · 0 评论 -
Dive into BERT:语言模型与知识
写在前面最近在研究的主要是跟知识相关的一些东西,包括回顾了一些知识表示模型呀,一些大规模的语言模型如何锦上添花融入外部知识的方法呀,如果你感兴趣的话可以直接去之前几篇博客里面瞄一眼。今天就以知识为切入点来更深入地剖析一下最近比较火的预训练模型。1、Language Models as Knowledge Bases?(EMNLP2019)语言模型可以当做是一种知识库吗?知识库是一种格式...原创 2019-11-16 15:17:20 · 13062 阅读 · 0 评论 -
当BERT遇上知识图谱
写在前面上篇博客理了一下一些知识表示学习模型,那今天我们来看目前最流行的BERT模型加上外部知识这个buff后到底会有怎么样的发展。其实这个思路在之前就有出现过比较有意思有效的工作,像百度的ERNIE和ERNIE2.0 以及清华的ERNIE,这些工作的介绍可以参考站在BERT肩膀上的NLP新秀们(PART I)。KG-BERT: BERT for Knowledge Graph Complet...原创 2019-11-06 21:07:39 · 17002 阅读 · 0 评论 -
知识表示学习模型
写在前面最近清华的THUNLP整理了Pre-trained Languge Model (PLM)相关的工作:PLMpapers,非常全面,想要了解最新NLP发展的同学不要错过。本来这篇是打算写一写Knowledge Graph + BERT系列工作的,但是最近有在做知识图谱的一些东西所以就先整理一下知识表示学习(knowledge representation learning)的相关模型发展...原创 2019-10-18 10:30:08 · 19824 阅读 · 0 评论 -
BERT源码分析PART I
写在前面BERT模型也出来很久了, 之前有看过论文和一些博客对其做了解读:NLP大杀器BERT模型解读,但是一直没有细致地去看源码具体实现。最近有用到就抽时间来仔细看看记录下来,和大家一起讨论。注意,本系列阅读需要提前对NLP相关知识有所了解,比如attention机制、transformer框架以及python和tensorflow基础等,关于BERT的原理不是本文的重点。附上关于BERT...原创 2019-05-16 21:34:15 · 21666 阅读 · 10 评论 -
【论文复现】使用CNN进行文本分类
写在前面不想做实验,不想看算法,不想刷Leetcode,只想躺尸,,,最近看概率图这一块看得头疼跟着大牛们的论文复现代码,然后一点一点学习吧。嗯今天要写的是关于NLP领域的一个关键问题:文本分类。相对应的论文是:Convolutional Neural Networks for Sentence Classification全部的代码github:text classifi...原创 2018-11-11 10:55:00 · 3598 阅读 · 15 评论 -
Nvidia League Player:来呀比到天荒地老
写在前面最近的机器学习圈子,NLP社区无疑是最热闹的,各种“碾压BERT”,“横扫排行榜”新闻满天飞,确实人家媒体就是靠点击量吃饭的嘛所以也不要太过苛刻。即便如此,也需要我们自己有独立思考的能力,虽然是被标题吸引进来的,但是对于每个模型我们都需要静下来好好思考。之前博客是有解析了一些BERT的后起之秀,比如ERNIE-Baidu,ERNIE-THU,XLMs,MASS, UNLIM等等,这篇博客...原创 2019-08-11 15:10:54 · 12674 阅读 · 1 评论 -
超详细中文预训练模型ERNIE使用指南
写在前面啊实习以后因为各种事就好久没写过博客了。最近在工作上处理的都是中文语料,也尝试了一些最近放出来的预训练模型(ERNIE,BERT-CHINESE,WWM-BERT-CHINESE),比对之后还是觉得百度的ERNIE效果会比较好,而且使用十分方便,所以今天就详细地记录一下。希望大家也都能在自己的项目上取得进展~1、A Glance at ERNIE关于ERNIE模型本身的话这篇不会做...原创 2019-07-31 22:13:03 · 27156 阅读 · 3 评论 -
BERT模型实战之多文本分类(附源码)
写在前面BERT模型也出来很久了,之前看了论文学习过它的大致模型(可以参考前些日子写的笔记NLP大杀器BERT模型解读),但是一直有杂七杂八的事拖着没有具体去实现过真实效果如何。今天就趁机来动手写一写实战,顺便复现一下之前的内容。这篇文章的内容还是以比较简单文本分类任务入手,数据集选取的是新浪新闻cnews,包括了[‘体育’, ‘财经’, ‘房产’, ‘家居’, ‘教育’, ‘科技’, ‘时尚’...原创 2019-03-21 11:00:36 · 67209 阅读 · 239 评论 -
NLP中的词向量总结与实战:从one-hot到bert
离散表示One-hot独热表示法NLP 中最常用、最传统的词特征表示方式是采用One-Hot 编码,即每一个词特征都被表示成一个很长的向量,其长度等于词表大小,当前词对应位置为1,其他位置为0。但是这种表示方式存在显而易见的问题:不同词之间总是正交的,无法衡量不同词之间的相似关系。只能反映每个词是否出现,但无法突出词之间重要性的区别。BOW词袋表示法在One-Hot 表示...原创 2019-03-13 13:52:05 · 2816 阅读 · 0 评论 -
【论文复现】Character-level Convolutional Networks for Text Classification
写在前面今天讨论的论文依然是文本分类主题的。Character-level Convolutional Networks for Text Classification这篇论文是在2016年4月份发表的,在此之前,深度学习自然语言处理问题的处理思路基本都是基于单词或者短语(n-grams)。这篇文章作者受到 ImagineNet卷积神经网络处理图片从底层像素开始的思路影响,开始试图从字符角度出...原创 2019-01-04 20:29:51 · 1436 阅读 · 1 评论 -
【论文复现】Hierarchical Attention Networks for Document Classification
写在前面最近在整理文本分类方面比较经典的模型,看到了“Hierarchical Attention Networks for Document Classification”这篇论文,还是蛮有意思的,作者的想法也非常有特色,然后就去网上找了一些参考资料博客辅助理解,整理一下思路记下来。论文概述近年来,在NLP领域,好像最流行的就是RNN、LSTM、GRU、Attention等及其变体的...原创 2018-12-22 21:02:13 · 2837 阅读 · 8 评论 -
【论文复现】使用RCNN进行文本分类
写在前面昨天下午去面试了微信模式识别中心的NLP,被面试官问到自闭,菜是原罪...继续之前的文本分类任务系列,前面介绍了几种:CNN,RNN,fasttext。今天的主角是RCNN对了,顺带可以了解一下RNN与CNN在NLP中的区别于共同点,这个问题在昨天面试中也被问到了。这也是今天这篇论文提出的原因之一吧。(虽然我觉得文中关于CNN的部分只是用了一个max-pooling,本质上并不...原创 2018-11-26 12:56:31 · 5946 阅读 · 6 评论 -
【论文复现】使用RNN进行文本分类
写在前面这是文本分类任务的第二个系列----基于RNN的文本分类实现(Text RNN)复现的论文是2016年复旦大学IJCAI 上的发表的关于循环神经网络在多任务文本分类上的应用:Recurrent Neural Network for Text Classification with Multi-Task Learning下面提及的代码可以在github中查看:https://gi...原创 2018-11-18 15:37:43 · 5340 阅读 · 2 评论 -
【论文复现】使用fastText进行文本分类
写在前面今天是补笔记的一天。。。今天的论文是来自Facebook AI Research的Bag of Tricks for Efficient Text Classification也就是我们常用的fastText最让人欣喜的这篇论文配套提供了fasttext工具包。这个工具包代码质量非常高,论文结果一键还原,目前已经是包装地非常专业了,这是fastText官网和其github代...原创 2018-11-23 22:05:18 · 3306 阅读 · 0 评论 -
NLP大杀器BERT模型解读
写在前面谷歌研究人员通过新的BERT模型在11项NLP任务中夺得STOA结果,这在自然语言处理学界以及工业界都引起了不小的热议。作者通过在33亿文本的语料上训练语言模型,再分别在不同的下游任务上微调,这样的模型在不同的任务均得到了目前为止最好的结果,并且有一些结果相比此前的最佳成绩得到了幅度不小的提升。但是如此好的效果并不是随便突然的一个凭空出现的想法导致的,而是作者结合NLP最近几年表现优异...原创 2018-11-12 19:41:29 · 7404 阅读 · 4 评论 -
jieba源码分析(二)
0、写在前面在jieba源码分析(一)里面已经jieba分词的一部分进行了分析,本文主要解决分词的另一块:未登陆词,也就是我们常说的新词。对于这些新词,我们前面所说的前缀词典中是不存在的,那么之前的分词方法自然就不能适用了。为了解决这一问题,jieba使用了隐马尔科夫(HMM)模型。关于HMM模型的具体细节,这里不会过多介绍,网上也已经有很多资源可以参考54nlp网站HMM相关资源汇总...原创 2018-11-02 12:40:17 · 831 阅读 · 1 评论 -
jieba源码分析(一)
0、写在前面学习NLP也有一段时间了,对其中一些算法也有了比较系统的了解,所以最近就打算阅读一些nlp领域的开源代码,一方面是想查漏补缺完善一下自然语言处理的一些基础技术以及实现;另一方面是学习学习coding的规范以及tricks。关于源码平时使用较多的是python语言的jieba库,这原本是主打中文分词的一个库,但是现在的功能可远不止分词。所以在nlp技术上应该还是比较全面的,就决定是它...原创 2018-11-01 17:03:38 · 2263 阅读 · 4 评论 -
Python正则表达式总结
写在前面一篇正则小笔记。断断续续看过正则的一些知识,总感觉要记的挺多,每次都随手一写,然后由于使用的机会也不多所以啊永远是看了忘忘了看。正则表达式是一些由字符和特殊符号组成的字符串,能按照某种模式匹配一系列有相似特征的字符串。Python中通过标准库中的re模块来支持正则表达式。当然,正则表达式并不是python所特有的,在其他语言中也是支持的,其中关于正则表达式的部分是一样的,只是可能...原创 2018-10-30 19:20:50 · 1725 阅读 · 0 评论 -
LDA主题模型笔记
1、写在前面在机器学习领域,关于LDA有两种含义,一是线性判别分析(Linear Discriminant Analysis),是一种经典的降维学习方法;一是本文要讲的隐含狄利克雷分布(Latent Dirichlet Allocation),是一种概率主题模型,主要用来文本分类,在NLP领域有重要应用。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年...原创 2018-10-31 12:44:18 · 1986 阅读 · 0 评论