![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
文章平均质量分 63
transformer_WSZ
You Only Look Once!
展开
-
旋转位置编码
旋转位置编码具有良好的外推性,即模型在预测时可以处理比训练时数据更长的序列。下面是具体的推导过程:more。原创 2023-09-14 01:37:59 · 127 阅读 · 0 评论 -
KV Cache
大模型推理加速的一个常用技术是KV Cache,在不牺牲任何计算精度的前提下,通过空间换时间,提高推理性能。注意,这里的Cache概念非常简单,跟浏览器缓存、CPU缓存不是一个概念。more在生成式模型的推理过程中,假设给定一个输入文本,模型会输出一个长度为N的文本,但是该过程执行了N次推理。因为模型每次推理只输出一个token,然后将输出token与输入tokens拼接在一起,作为下一次推理的输入,这样不断反复直到遇到终止符。原创 2023-09-13 02:30:19 · 578 阅读 · 0 评论 -
Multi Query Attention & Group Query Attention
Multi Query Attention(MQA)在2019年就被提出来了,用于推理加速,但在当时并没有受到很多关注,毕竟一张2080就能跑Bert-base了。随着LLM的大火,MQA所带来的收益得以放大。more。原创 2023-09-13 02:28:46 · 2574 阅读 · 0 评论 -
InstructGPT技术原理
ChatGPT背后的技术原理:more。原创 2023-07-09 23:52:41 · 133 阅读 · 0 评论 -
Relation Classification with Entity Type Restriction
这是一篇ACL Findings的论文,idea很简单,但却非常奏效。关系分类旨在预测句子中两个实体间的关系,这篇论文通过实体类型来限制关系的搜索范围。例如两个实体类型都是person,那么他们的关系就可以排除出生地,这样就能减少候选关系的数量:模型结构算法流程R(ts,to)={r∈R∣(s,o)∈Dr}={r∈R∣ts∈S(r) and to ∈O(r)}\begin{aligned}R_{(t s, t o)} &=\left\{r原创 2022-05-21 15:11:58 · 245 阅读 · 0 评论 -
SimCSE论文及源码解读
对比学习的思想是拉近同类样本的距离,增大不同类样本的距离,目标是要从样本中学习到一个好的语义表示空间。SimCSE是一种简单的无监督对比学习框架,它通过对同一句子两次Dropout得到一对正样例,将该句子与同一个batch内的其它句子作为一对负样例。模型结构如下所示:损失函数为:ℓi=−logesim(hizi,hizi′)/τ∑j=1Nesim(hizi,hjzj′)/τ\ell_{i}=-\log \frac{e^{\operatorname{sim}\left(\mathbf{h}_{原创 2022-05-02 18:08:09 · 2549 阅读 · 0 评论 -
GloVe
GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & overall statistics)的词表征工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性、类比性等。构建共现矩阵设共现矩阵为 XXX ,其元素为 Xi,jX_{i,j}Xi,j 。Xi,jX_{i,j}Xi,j 的意义为:在整个语料库中,单词 iii 和单词 jjj 共同出现在一个窗口中原创 2021-07-22 00:38:07 · 288 阅读 · 0 评论 -
如何做调研
首先去了解该任务的定义是什么,比如输入输出,还有一些专业术语等等;该任务有哪些对应的数据集,根据该数据集去paperwithcode查询相关的sota模型;paperwithcode更新会不及时,这时有如下几种渠道:github:查找相关的数据集及其代码NLP各大顶会:收录了最新的顶会论文,可以去查找任务相关的paper谷歌学术:大而杂csdn、知乎有一些研究综述还是不错的...原创 2021-06-23 11:04:22 · 142 阅读 · 0 评论 -
常见NLP面试问答
1. HMM vs MEMM vs CRFHMM -> MEMMHMM模型中存在两个假设:输出观察值之间严格独立。MEMM解决了HMM输出独立性假设的问题。因为HMM只限定在了观测与状态之间的依赖,而MEMM引入自定义特征函数,不仅可以表达观测之间的依赖,还可表示当前观测与前后多个状态之间的复杂依赖。状态的转移过程中当前状态只与前一状态有关。但实际上序列标注问题不仅和单个词相关,而且和观察序列的长度,单词的上下文,等等相关。MEMM -> CRF:CRF不仅解决了HMM输出独立原创 2021-03-30 22:56:41 · 377 阅读 · 0 评论 -
BERT、RoBerta、XLNet、ALBERT对比
BERTBERT堆叠了多层Transformer的Encoder模块,设计了两个任务来完成预训练:Masked LM:随机mask掉15%的token,其中80%替换为[MASK],10%替换为其它token,10%保留原单词。Next Sentence Prediction(NSP):从训练集中抽取A和B句,50%为A的下一句,50%为其它句子。RoBerta静态Mask VS 动态Mask静态Mask:BERT对每一个序列随机选择15%的tokens替换成[MASK],而一旦被选中,之原创 2021-03-25 22:57:48 · 1685 阅读 · 0 评论 -
GCN学习
最近两周断断续续学习了GCN有关的知识,在此主要记录一下GCN状态更新的公式推导。图卷积起缘我们先探讨一个问题:为什么研究者们要设计图卷积操作,传统的卷积不能直接用在图上吗? 要理解这个问题,我们首先要理解能够应用传统卷积的图像(欧式空间)与图(非欧空间)的区别。如果把图像中的每个像素点视作一个结点,如下图左侧所示,一张图片就可以看作一个非常稠密的图;下图右侧则是一个普通的图。阴影部分代表卷积核,左侧是一个传统的卷积核,右侧则是一个图卷积核。仔细观察上图,可以发现两点不同:在图像为代表的欧式空间原创 2020-05-24 11:11:22 · 1544 阅读 · 0 评论 -
N-gram模型
N-gram是一种传统的统计语言模型,该模型基于这样一种假设:第 nnn 个词的出现只与前面 m−1m-1m−1 个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 mmm 个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram(即 m=2m=2m=2 或 m=3m=3m=3)。预备知识条件概率P(B∣A)=P(AB)...转载 2019-08-17 18:03:48 · 504 阅读 · 0 评论 -
BERT
Comparision Of ModelsReferA Neural Probabilistic Language ModelBERT: Pre-training of Deep Bidirectional Transformers for Language Understanding原创 2019-07-28 17:09:03 · 186 阅读 · 0 评论 -
Transformer
Notesself-attention:表示自注意。在机器翻译中,attention分配通常是目标单词对源语句各单词的概率分布。而self-attention表示source --> source的attention分配,这样每个单词便能捕获与其他所有单词的关系特征,解决了RNN无法学习长程特征的问题。Multi-head:表示 XXX 同时做多次映射得到多个query、key、v...原创 2019-07-25 00:07:40 · 196 阅读 · 0 评论 -
Attention Model
人脑的注意力模型,说到底是一种资源分配模型,在某个特定时刻,你的注意力总是集中在画面中的某个焦点部分,而对其它部分视而不见。Attention Model 被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中。RNN的局限机器翻译解决的是输入是一串在某种语言中的一句话,输出是目标语言相对应的话的问题,如将德语中的一段话翻译成合适的英语。之前的Neural Machine ...原创 2019-07-24 15:51:54 · 371 阅读 · 0 评论