Nature language Programming
张博208
知识搬运工
展开
-
RLHF知识
然而,对生成结果的评估是主观和依赖上下文的,这些结果难以用现有的基于规则的文本生成指标 (如 BLUE 和 ROUGE) 来衡量。除了评估指标,现有的模型通常以预测下一个单词的方式和简单的损失函数 (如交叉熵) 来建模,没有显式地引入人的偏好和主观意见。因此,训练阶段,如果直接用人的偏好(或者说人的反馈)来对模型整体的输出结果计算reward或loss,显然是要比上面传统的“给定上下文,预测下一个词”的损失函数合理的多。:即使用强化学习的方法,利用人类反馈信号直接优化语言模型。原创 2023-03-24 11:39:07 · 1142 阅读 · 0 评论 -
向量空间模型算法( Vector Space Model )
NLP --- 文本分类(向量空间模型(Vector Space Model)VSM)_进击的菜鸟-CSDN博客_向量空间模型向量空间模型算法( Vector Space Model )_摸鱼大侠的博客-CSDN博客_向量空间模型原创 2021-12-07 20:39:03 · 500 阅读 · 0 评论 -
跨域预训练语言模型(XLM)
Cross-lingual Language Modelhttps://blog.csdn.net/xygl2009/article/details/103156433https://blog.csdn.net/ljp1919/article/details/97016298原创 2020-09-29 16:56:50 · 201 阅读 · 0 评论 -
adaptive embedding
https://blog.csdn.net/guotong1988/article/details/87618245原创 2020-09-29 16:09:38 · 288 阅读 · 0 评论 -
Relative Positional Encodings
参考:https://www.cnblogs.com/shiyublog/p/11185625.htmlhttps://www.cnblogs.com/shiyublog/p/11236212.html第一部分目录Motivation 概述 符号含义 实现 高效实现 结果对于Transformer模型的positional encoding,最初在Attention is all you need的文章中提出的是进行绝对位置编码,之后Shaw在2018年的文章中提出了..原创 2020-09-29 11:01:23 · 2680 阅读 · 1 评论 -
DistillBert
https://zhuanlan.zhihu.com/p/89522799原创 2020-09-28 12:10:21 · 259 阅读 · 0 评论 -
NLP中的平滑技术
https://blog.csdn.net/shao1996/article/details/102619728https://www.jianshu.com/p/f7d6f7a59ba5原创 2020-09-28 09:48:22 · 143 阅读 · 0 评论 -
BIM BM25 算法
https://blog.csdn.net/SrdLaplace/article/details/84954920https://www.jianshu.com/p/b4f06594d32fhttps://blog.csdn.net/Tink1995/article/details/104745144/原创 2020-09-18 11:55:15 · 320 阅读 · 0 评论 -
TextRank
https://www.cnblogs.com/motohq/p/11887420.htmlhttps://www.jianshu.com/p/ffaee5708866原创 2020-09-18 10:39:13 · 86 阅读 · 0 评论 -
GPT 1-2 理解
https://blog.csdn.net/linchuhai/article/details/97274228https://www.cnblogs.com/yifanrensheng/p/13167796.htmlhttps://baijiahao.baidu.com/s?id=1652093322137148754&wfr=spider&for=pchttps://baijiahao.baidu.com/s?id=1652045261459975418&wfr=sp原创 2020-09-17 12:30:21 · 203 阅读 · 0 评论 -
浅谈 Transformer-based 模型中的位置表示
https://zhuanlan.zhihu.com/p/92017824转载 2020-09-16 14:49:41 · 225 阅读 · 0 评论 -
XLNET详解
https://blog.csdn.net/u012526436/article/details/93196139https://zhuanlan.zhihu.com/p/70257427https://blog.csdn.net/weixin_37947156/article/details/93035607https://baijiahao.baidu.com/s?id=1654814515140351919&wfr=spider&for=pc原创 2020-09-16 14:32:04 · 196 阅读 · 0 评论 -
ELMO模型
https://www.cnblogs.com/jiangxinyang/p/10060887.htmlhttps://jozeelin.github.io/2019/07/25/ELMo/http://www.mamicode.com/info-detail-2541410.htmlhttps://zhuanlan.zhihu.com/p/38254332原创 2020-09-15 14:41:05 · 122 阅读 · 0 评论 -
Transformer-XL
https://zhuanlan.zhihu.com/p/180058518https://zhuanlan.zhihu.com/p/70745925原创 2020-09-14 12:29:42 · 184 阅读 · 0 评论 -
Google BERT原理详解 一文读懂BERT
理论:https://zhuanlan.zhihu.com/p/46652512https://www.cnblogs.com/anai/p/11645953.htmlhttps://blog.csdn.net/sunhua93/article/details/102764783https://www.cnblogs.com/rucwxb/p/10277217.htmlhttp://blog.itpub.net/31559354/viewspace-2636278/https://w原创 2020-09-14 11:46:35 · 266 阅读 · 0 评论 -
BERT论文解读
转载:https://www.cnblogs.com/anai/p/11645953.htmlBERT论文解读本文尽量贴合BERT的原论文,但考虑到要易于理解,所以并非逐句翻译,而是根据笔者的个人理解进行翻译,其中有一些论文没有解释清楚或者笔者未能深入理解的地方,都有放出原文,如有不当之处,请各位多多包含,并希望得到指导和纠正。...转载 2020-09-14 11:05:18 · 112 阅读 · 0 评论 -
深入理解NLP Subword算法:BPE、WordPiece、ULM ,sentencepiece
https://zhuanlan.zhihu.com/p/86965595https://zhuanlan.zhihu.com/p/75271211原创 2020-09-14 10:28:35 · 585 阅读 · 0 评论 -
一文读懂BERT中的WordPiece BPE
0. 目录1. 前言 2. WordPiece原理 3. BPE算法 4. 学习资料 5. 总结回到顶部1. 前言2018年最火的论文要属google的BERT,不过今天我们不介绍BERT的模型,而是要介绍BERT中的一个小模块WordPiece。回到顶部2. WordPiece原理现在基本性能好一些的NLP模型,例如OpenAI GPT,google的BERT,在数据预处理的时候都会有WordPiece的过程。WordPiece字面理解是把word拆成piece一片.转载 2020-09-14 10:00:37 · 2207 阅读 · 0 评论 -
《Universal Sentence Encoder》论文分享
作者机构:Google Research原文链接论文主要是提出了一个统一的句子编码框架,句子级别的encode比Word2vec使用起来会更加的方便,因为可以直接拿来做句子分类等任务。本文主要提出了两个句子encode的框架,一个是之前《attention is all you need》里面的一个encode框架,另一个是DAN(deep average network)的encode方式。两个的训练方式较为类似,都是通过多任务学习,将encode用在不同的任务上,包括分类,生成等等,以不同的任务转载 2020-09-07 17:29:12 · 1251 阅读 · 0 评论 -
word2vec、glove和 fasttext 的比较
https://blog.csdn.net/sun_brother/article/details/80327070转载 2020-09-06 14:17:51 · 165 阅读 · 0 评论 -
Doc2Vec的简介及应用(gensim)
https://blog.csdn.net/weixin_42608414/article/details/88378984转载 2020-09-06 13:47:08 · 475 阅读 · 0 评论 -
对Word Mover‘s Distance的理解 WMD
https://zhuanlan.zhihu.com/p/88788961https://blog.csdn.net/sinat_24330297/article/details/102738810一、简要概括本文提出了一个新的度量两个文档语义的distance,叫做Word Mover's Distance(WMD)。它主要基于两个点:(1)两个文档中的word都表示成word2vec;(2)对于文档A中的每一个词,我们都可以在文档B中找到一个对应的词,使得A的所有词”移动“到B的..转载 2020-09-06 13:28:55 · 827 阅读 · 0 评论 -
机器翻译与自动文摘评价指标 BLEU 和 ROUGE
https://baijiahao.baidu.com/s?id=1655137746278637231&wfr=spider&for=pc转载 2020-08-31 09:31:01 · 433 阅读 · 0 评论 -
BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm、SwitchableNorm总结
https://blog.csdn.net/liuxiao214/article/details/81037416转载 2020-08-26 11:43:05 · 150 阅读 · 0 评论 -
Hierarchical Attention Networks
https://blog.csdn.net/qq_24305433/article/details/80427159https://blog.csdn.net/qq_36047533/article/details/88671790https://blog.csdn.net/liuchonge/article/details/73610734原创 2020-08-23 11:41:51 · 230 阅读 · 0 评论 -
Memory Networks之MemN2N
https://zhuanlan.zhihu.com/p/58591316转载 2020-08-23 11:21:16 · 202 阅读 · 0 评论 -
记忆网络(Memory Network)
https://blog.csdn.net/u014248127/article/details/84894739https://zhuanlan.zhihu.com/p/32257642原创 2020-08-23 11:11:10 · 230 阅读 · 0 评论 -
一文看懂 Bahdanau 和 Luong 两种 Attention 机制的区别
https://zhuanlan.zhihu.com/p/129316415参考:Neural Machine Translation by Jointly Learning to Align and Translate Effective Approaches to Attention-based Neural Machine Translation Attention Variants BahdanauAttention与LuongAttention注意力机制简介-CSDN..转载 2020-08-23 10:45:39 · 718 阅读 · 0 评论 -
如何通俗的理解beam search?
https://zhuanlan.zhihu.com/p/82829880原创 2020-08-20 19:18:02 · 667 阅读 · 0 评论 -
BLEU
吴恩达讲解 公式举例 BLEU论文 NLTK中BLEU使用原创 2020-08-20 18:42:57 · 135 阅读 · 0 评论 -
Pointer Networks
https://zhuanlan.zhihu.com/p/48959800原创 2020-08-20 14:53:18 · 154 阅读 · 0 评论 -
LSTM的加速算法:QRNN和SRU
https://blog.csdn.net/SYSU_BOND/article/details/101156567原创 2020-08-19 19:01:26 · 852 阅读 · 1 评论 -
Recurrent Neural Network[SRU]
0.背景对于如机器翻译、语言模型、观点挖掘、问答系统等都依赖于RNN模型,而序列的前后依赖导致RNN并行化较为困难,所以其计算速度远没有CNN那么快。即使不管训练的耗时程度,部署时候只要模型稍微大点,实时性也会受到影响。Tao Lei等人基于对LSTM、GRU等模型的研究,提出了SRU模型。在保证速度的前提下,准确度也是没有多少损失。1.SRUTao Lei等人通过将每一时间步的主要计算部分,优化为不要去依赖之前时间步的完整计算,从而能够容易的并行化。其结果示意图如图1.1。图1.1 普通的转载 2020-08-19 18:58:36 · 764 阅读 · 0 评论 -
TransE算法(Translating Embedding)
https://blog.csdn.net/u012102306/article/details/80047103原创 2020-08-15 21:19:38 · 232 阅读 · 0 评论 -
基于Doc2vec训练句子向量
目录一.Doc2vec原理二.代码实现三.总结一.Doc2vec原理前文总结了Word2vec训练词向量的细节,讲解了一个词是如何通过word2vec模型训练出唯一的向量来表示的。那接着可能就会想到,有没有什么办法能够将一个句子甚至一篇短文也用一个向量来表示呢?答案是肯定有的,构建一个句子向量有很多种方法,今天我们接着word2vec来介绍下Doc2vc,看下Doc2vec是怎么训练一个句子向量的。许多机器学习算法需要的输入是一个固定长度的向量,当涉及到短文时,最常用的固定长度的向量转载 2020-08-15 21:05:47 · 1485 阅读 · 0 评论 -
通俗讲解Subword Models
https://blog.csdn.net/Datawhale/article/details/107479235原创 2020-08-15 19:11:06 · 156 阅读 · 0 评论 -
Sense2vec with spaCy and Gensim
https://explosion.ai/blog/sense2vec-with-spacy/原创 2020-08-15 18:59:22 · 151 阅读 · 0 评论 -
理解GloVe模型
https://blog.csdn.net/u014665013/article/details/79642083https://blog.csdn.net/linchuhai/article/details/97135612原创 2020-08-14 15:58:33 · 163 阅读 · 0 评论 -
LSA(Latent semantic analysis)
https://blog.csdn.net/fkyyly/article/details/84665361原创 2020-08-14 15:42:17 · 115 阅读 · 0 评论 -
如何通俗地讲解 viterbi 算法?
https://www.zhihu.com/question/20136144原创 2020-08-13 10:52:45 · 131 阅读 · 0 评论