![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
文章平均质量分 82
牧童在路上
这个作者很懒,什么都没留下…
展开
-
论文笔记 A survey of Transformers
论文笔记A survey of Transformers1.介绍改进版本的各种former在如下三个方面改进了vanilla Transformer:模型效率,因为Self-Attention的时间和内存效复杂度导致其在处理长序列时效率比较低模型泛化,很难在小批量数据集上进行训练,模型迁移,将Transformer适应去特定的下游应用。提出一个新的分类,根据三个方面:模型改进、预训练、应用。2.背景:介绍架构...原创 2021-07-04 22:47:52 · 579 阅读 · 1 评论 -
Transformer-XL论文笔记
论文地址:Transformer-XL:: Attentive Language Models Beyond a Fixed-Length Context摘要Transformer具有学习长期依赖的能力,但是在语言模型的设置中,受限于固定长度的上下文。在本文,我们提出xl,能够学习超过固定长度的依赖,并且不破坏时间上的统一性。它包含一个a segment-level recurrence mechanism 以及novel position encoding scheme, 我们的方法不仅能学习更长期原创 2021-04-30 19:13:46 · 304 阅读 · 0 评论 -
关于pytorch sharing weights的初步思考
参数共享 李宏毅老师1.在实现universal-transformer,其中的transition function 是共享参数的。想起李宏毅老师的说法:实现共享参数,我们要给这些参数同样的初始化,然后在梯度更新的时候我们让参数值减去所有对应参数梯度的和(当然,会乘以学习率)2.那么,如果按照李老师所说,是不是意味着我们要在每一层都定义一个对象,在优化时,我们便不能使用 optimizer.step()。而是应该改变参数更新的办法。实行起来有一定困难如果我们 定义一个模块 重复使用呢3.原创 2021-04-22 11:59:16 · 1014 阅读 · 0 评论 -
Universal Transformer 论文解读
论文出处:Universal Transformers摘要RNN一直是sequence modeling task 的主要选择。然而,固有的序列计算让它训练很慢,FCNN 和CNN架构在一些例如机器翻译在内的序列建模任务中取得了更好的结果,因为同时计算所有输入,所以并行性强,训练时间更快。然而,一些FCNN架构,例如vanilla transformer在一些简单的任务上不能处理RNN能够轻松应对的东西,例如 copy string,或者是当string长度超过训练数据集时的简单推断任务。我们提出了un原创 2021-04-16 09:45:52 · 740 阅读 · 0 评论 -
Named Entity Recognition for Chinese Social Media with Jointly Trained Embedding 笔记
摘要中文NER主要针对正式文本,对于社交媒体的NER主要在英语上,本文标注了一个新的微博数据集,标注有名称和一些名词性提及1.介绍一个中文NER 传统是利用lexical embedding来提高NER性能,然而不像其他语言,我们不能使用自动分词来为中文单词赋值一个Embedding,这是不可信的,所以中文NER model都tag word2.NER for Chinese Social Media社交媒体的不正式性很明显对NLP系统造成了重大的困难,例如拼写错误,新颖的词以及非语法构造。中文也原创 2021-03-29 20:45:23 · 341 阅读 · 0 评论 -
Chinese NER Using Lattice LSTM笔记
摘要使用lstm 编码字符和潜在的lexicon,相比于character-based model ,更能利用单词信息,相比于word-based,更不易遭受分词的错误原创 2021-03-12 20:11:54 · 241 阅读 · 0 评论 -
A Survey on Deep Learning for Named Entity Recognition 札记
1.NER 进化早期 ner :需要很多的human effort 来指定规则和特征(1)什么是 NER有两种主张:serving as a name for something or someoneproper names and natural kind terms like biological speciesand substances.不论如何,现在主要把NER 划分为general NE ,domain-specific NE(2) DL 中的 NER需要最少的原创 2021-03-07 16:20:04 · 298 阅读 · 1 评论 -
transformer之代码借鉴
我也不知道为什么要看别人写的代码,我并没有碰到问题,我只是觉得自己的知识和代码架构能力以及那种在码代码时候的一种直觉少了许多,所以要看一些别人的代码,在看的时候不能浅尝辄止,借鉴api,借鉴一些类库,借鉴一些架构的方式,看看别人的思路。1.预处理(1)文件读取源文件为txt 文件,使用python内置的open 函数打开文件,然后读取,并进行划分为list. opt.src_data = open(opt.src_data).read().strip().split('\n')(2)分词使.原创 2021-03-05 15:39:26 · 443 阅读 · 1 评论 -
Seq2Seq - Attention(代码私戳)
初级版本模型:模型组成:Encoder:对当前batch生成context vector,以及对应各个时刻的 encoder_outputDecoder对于当前attention,以及上一时刻输出的词向量,拼接后放入decoder rnn中,生成下一个隐状态以及当前预测的输出Attention对于 decoder 的hidden_state, 对于当前batch 各个时刻的encoder output 生成attention,返回(batch_size, seq_len)Seq2Seq因原创 2020-12-29 15:39:48 · 164 阅读 · 0 评论