NLP
文章平均质量分 83
爱睡觉的Raki
我不能只做观众
展开
-
Raki的读paper小记:GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints
图2展示了分组查询注意力和多头/多查询注意力的比较。适中数量的组导致插值模型的质量高于MQA,但比MHA更快,正如我们将展示的那样,这代表了一个有利的权衡。然而,更大的模型通常会按比例增加头的数量,使得多查询注意力在内存带宽和容量上都表现出更激进的削减。此外,较大的模型受到注意力的内存带宽开销相对较小,因为键值缓存随着模型维度的增加而增加,而模型的FLOPs和参数随模型维度的。此外,我们引入分组查询注意力,它是多查询注意力和多头注意力的插值,既能够在与多查询注意力相当的速度下实现接近多头注意力的质量。原创 2023-08-09 23:20:40 · 712 阅读 · 0 评论 -
Raki的读paper小记:RWKV: Reinventing RNNs for the Transformer Era
AttnQKVt∑i1Teqt⊤ki∑i1Teqt⊤kiviAttnWKVt∑i1tewtiki∑i1tewtikiviwti∈RT×T是学习到的位置偏移,矩阵中每个元素是一个标量。原创 2023-07-30 03:18:44 · 1250 阅读 · 0 评论 -
Raki的读paper小记:SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions
用GPT3生成的instructions贡献:(1) 我们引入了SELF-INSTRUCT,一种使用最少人工标记数据诱导指令遵循能力的方法;(2) 我们通过广泛的指令调优实验证明了其有效性;(3) 我们发布了一个大规模的合成数据集,包含52,000个指令,以及一组手动编写的新任务,用于构建和评估未来的指令遵循模型。SELF-INSTRUCT是一种生成任务指令数据的方法,它使用预训练的普通语言模型自身来生成任务,经过过滤和调优,可以让模型更好地遵循指令。原创 2023-07-27 00:48:47 · 527 阅读 · 0 评论 -
Raki的读paper小记:Retentive Network: A Successor to Transformer for Large Language Models
RetNet = linear attention + rope + 显式衰减(即 $\gamma$)原创 2023-07-24 01:32:49 · 586 阅读 · 0 评论 -
Raki的读paper小记:LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
研究任务对大模型进行部分微调已有方法和相关工作现有技术通常通过扩展模型深度引入推理延迟(Houlsby 等人,2019;Rebuffi 等人,2017),或通过减少模型可用序列长度(Li 和 Liang,2021;Lester 等人,2021;Ham-bardzumyan 等人,2020;Liu 等人,2021)面临挑战这些方法通常无法达到微调基线,提出了效率与模型质量之间的权衡。创新思路学习过度参数化的模型实际上位于低内在维度上。原创 2023-07-23 18:46:56 · 709 阅读 · 0 评论 -
思考AI科研的未来
今天不聊paper,来聊一些现实的问题,AI科研发展?原创 2023-04-06 19:20:27 · 720 阅读 · 1 评论 -
近几年NLP比较promising的方法
对比学习的想法是,把不同类别的样本在特征空间推开,而让相似的样本距离更近,从而获得更好的样本表示思想是构造正负样本对进行优化,在CV那边负样本非常容易构造,而NLP因为token的离散性并没有那么容易构造,而SimCSE发现仅仅使用dropout构造出的负样本就能达到很好的效果。原创 2023-03-23 19:33:45 · 669 阅读 · 0 评论 -
Transformer及其子孙后代
attention is all you need,现在已经是money is all you need时代了(x首先介绍AtentionQKVsoftmaxdkQKTVq,k和v都是原输入x通过变换矩阵得到的q和k相乘得到系数矩阵,用softmax进行归一化,再乘v得到加权后的表示,这就是自注意力做的事情过程如图:模型图。原创 2023-03-01 16:17:09 · 741 阅读 · 0 评论 -
Raki的读paper小记:BART
在预训练阶段,encoder类似bert,decoder类似gpt,一个双向一个自回归在fine-tune阶段,未被破坏的文本被同时输入到encoder和decoder,用decoder的最后隐藏层作为表示这种设置的一个关键优势是去噪的灵活性;可以对原始文本进行任意的转换,包括改变其长度。原创 2023-02-28 01:24:12 · 382 阅读 · 0 评论 -
Raki的读paper小记:ConTinTin: Continual Learning from Task Instructions
此工作提出了一个NLP持续学习新范式原创 2023-01-12 01:32:18 · 536 阅读 · 0 评论 -
Raki的读paper小记:Continual Learning of Natural Language Processing Tasks: A Survey
来自UIC的2022最新NLP持续学习综述,第一次总结了各种任务范式原创 2023-01-06 19:27:06 · 1437 阅读 · 1 评论 -
Raki的读paper小记:Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models
我们发现,这些模型的表现一直优于用同等甚至更少的计算量训练出来的MLMs,这表明判别性的预训练模型在zero-shot和few-shot上更有效。分析表明,来自ELECTRA生成器的失败预测实际上可以将具有相反含义的否定词从正确的标记传送到鉴别器,这增强了ELECTRA区分zero-shot预测中具有相反含义概念的能力。分析表明,ELECTRA的生成器很可能将反义词等否定词反馈给判别器,这在预训练期间起到了直接对比的作用。个提示,该模型将正确的目标词预测为原始标记,将不正确的目标单词预测为生成的标记。...原创 2022-08-18 00:31:14 · 252 阅读 · 0 评论 -
信息抽取小Project
最近封在宿舍,炼丹不顺,浅给朋友写个课程project吧~参考:传统方法BM25解决短文本相似度问题Ranking算法评测指标之 CG、DCG、NDCGMRR vs MAP vs NDCG: Rank-Aware Evaluation Metrics And When To Use Themtask1在数据集上跑BM25并且用mAP和NDCG作为metric重点:用numpy 实现mAP和NDCG,并取得一个尽量高的分数task2使用词向量,训练logistic regression,分析原创 2022-04-15 21:55:02 · 340 阅读 · 0 评论 -
Raki的读paper小记:Rational LAMOL: A Rationale-Based Lifelong Learning Framework
Abstract & Introduction & Related Work研究任务持续学习(lifelong learning)已有方法和相关工作LAMOLComponent Freezing:虽然组件冻结也是微调过程中的一种常见做法,但它是为了防止模型低层的常识损失,相比之下,许多基于架构的LL方法,例如Rusu等人(2016),利用组件冻结来防止改变从以前的任务中学到的知识,并扩大模型以适应新的任务,从而使模型对遗忘免疫,我们的模型与基于架构的方法不同,只有一小部分模型被原创 2022-04-09 11:10:31 · 1403 阅读 · 0 评论 -
Raki的读paper小记:LAMOL: LANGUAGE MODELING FOR LIFELONG LANGUAGE LEARNING
Abstract & Introduction & Related Work研究任务lifelong learning已有方法和相关工作面临挑战现有方法大多基于图片或者游戏,而不是语言创新思路提出了一种基于语言模型的lifelong learning方法重现以前任务的伪样本,同时不需要额外的内存或模型容量实验结论结果显示,LAMOL可以防止灾难性遗忘,而没有任何不妥协的迹象,并且只用一个模型就可以连续完成五种非常不同的语言任务sota此外,我们建议在伪原创 2022-04-09 09:25:34 · 619 阅读 · 0 评论 -
Raki的读paper小记:CLASSIC: Continual and Contrastive Learning of Aspect Sentiment Classification Tasks
Abstract & Introduction & Related Work研究任务aspect sentiment classification in domain incremental learning对比持续学习已有方法和相关工作完善的只是新任务的学习,他们并没有处理灾难性遗忘的问题,每个任务使用一个单独的网络。基于胶囊网络面临挑战创新思路第一次在ASC领域探索持续学习结合了对比学习现有的对比学习使用现有数据(如图像)的各种转换(如旋转和裁剪)来原创 2022-04-06 22:31:26 · 922 阅读 · 0 评论 -
Continual Learning for Text Classification with Information Disentanglement Based Regularization
Abstract & Introduction & Related Work研究任务文本分类持续学习已有方法和相关工作基于回放的模型基于正则化的模型面临挑战创新思路我们提出的方法首先将文本隐藏空间分解为所有任务的通用表示和每个单独任务的特定表示,并进一步以不同的方式对这些表示进行调整,以更好地约束概括所需的知识我们还介绍了两个简单的辅助任务:下一句预测和任务id预测,用于学习更好的泛型和特定表示空间实验结论sota把信息分解成一般信息和任务特定原创 2022-04-06 17:51:36 · 919 阅读 · 0 评论 -
Raki的读paper小记:PURE:A Frustratingly Easy Approach for Entity and Relation Extraction
Abstract & Introduction & Related Work研究任务实体和关系抽取已有方法和相关工作结构化预测,两个任务使用同一框架多任务学习,面临挑战长期以来,人们一直认为联合模型可以更好地捕捉实体和关系之间的相互作用,并有助于缓解错误传播问题创新思路我们的方法基本上是建立在两个独立的编码器上,只是使用实体模型来构建关系模型的输入通过一系列仔细的检查,我们验证了为实体和关系学习不同的上下文表征的重要性,在关系模型的早期融合实体信息,原创 2022-03-20 16:38:21 · 2022 阅读 · 0 评论 -
Raki的读paper小记:FastText:Enriching Word Vectors with Subword Information
Abstract & Introduction & Related Work研究任务word representation已有方法和相关工作基于形态学的分解面临挑战流行的学习这种表征的模型忽略了单词的形态,为每个单词分配了一个不同的向量。这是一个局限性,特别是对于具有大词汇量和许多稀有词汇的语言来说创新思路提出了一种基于skipgram的模型,每个词都被表示为一个由n个字符组成的包。每个字符n-gram都有一个向量表示;单词被表示为这些表示的总和允许我原创 2022-03-20 11:30:40 · 970 阅读 · 0 评论 -
Raki的读paper小记:Enhanced Language Representation with Label Knowledge for Span Extraction
Abstract & Introduction & Related Work研究任务用标签知识来增强文本表达已有方法和相关工作最近的工作引入了标签知识,通过将span提取任务形式化为一个问题回答问题来增强文本表示面临挑战由于训练和推理的低效率,QA形式并没有充分发掘标签知识创新思路它对文本和标签注释进行独立编码,然后通过一个精心设计的语义融合模块将标签知识整合到文本表示中实验结论在四个数据集上sota,大幅减少了训练时间标签知识被隐性地原创 2022-03-19 19:06:53 · 1167 阅读 · 0 评论 -
Raki的读paper小记:Unified Named Entity Recognition as Word-Word Relation Classification
Abstract & Introduction & Related Work研究任务NER同一建模模型(flat,nested,discontinuous)已有方法和相关工作序列标注基于超图的方法seq2seq方法基于span的方法现有方法focus如何准确识别实体边界面临挑战在推理过程中同时存在假结构和结构模糊的问题解码效率曝光偏差基于span的方法受限于最大span长度,模型复杂度创新思路提出了一种基于word-word关系分类的统一N原创 2022-03-19 12:36:36 · 1336 阅读 · 0 评论 -
Raki的读paper小记:SpanBERT: Improving Pre-training by Representing and Predicting Spans
Abstract & Introduction & Related Work研究任务一种预训练方法,旨在更好地表示和预测文本的span已有方法和相关工作面临挑战创新思路在BERT的基础上,mask连续的随机span而不是tokens训练span边界表征来预测被mask的span的全部内容,而不依赖其中的单个token表征实验结论在同样的训练数据下,在QA数据集上达到了sota为了实现SpanBERT,我们建立在BERT的一个精心调整的副本上,它本身原创 2022-03-18 22:34:29 · 670 阅读 · 0 评论 -
Raki的读paper小记:Dice Loss for Data-imbalanced NLP Tasks
Abstract & Introduction & Related Work研究任务数据不平衡的NLP任务已有方法和相关工作面临挑战负样例明显多于正样例,而且大量的容易负面的例子压倒了训练。最常用的交叉熵标准实际上是以准确性为导向的,这在训练和测试之间产生了差异。在训练时,每个训练实例对目标函数的贡献是相同的,而在测试时,F1得分更多关注的是正面实例创新思路将交叉熵损失函数替换成dice loss为了进一步减轻训练中来自容易负样例例子的支配性影响,我们建议将训原创 2022-03-18 20:24:38 · 1133 阅读 · 0 评论 -
Raki的读paper小记:Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Abstract & Introduction & Related Work研究任务sentence embedding已有方法和相关工作InferSentUniversal Sentence EncoderSkip-Thought面临挑战BERT在文本语义相似度上达到了sota,然而,它需要将两个句子都送入网络,这导致了大量的计算开销。在10,000个句子的集合中找到最相似的一对,需要用BERT进行大约5千万次推理计算(约65小时)。BERT的构造使其不适合原创 2022-03-18 18:30:52 · 811 阅读 · 0 评论 -
Raki的读paper小记:ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作面临挑战虽然它们在转移到下游的NLP任务时产生了很好的结果,但它们通常需要大量的计算才能有效创新思路我们提出了一个更有样本效率的预训练任务,叫做替换token检测。我们的方法不是mask输入,而是通过用从小型生成器网络中抽样的合理的替代物来替换一些token来破坏它我们不是训练一个预测被破坏的token的原始身份的模型,而是训练一个判别模型,预测原创 2022-03-18 17:45:44 · 2297 阅读 · 0 评论 -
Raki的读paper小记:ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作面临挑战越来越大的模型需要更多的计算资源和时间去训练创新思路因子化嵌入参数化跨层参数共享用SOP替换NSP实验结论sotaALBERT用了两个很重要的技术来减少参数规模因子化嵌入参数化。通过将大的词汇嵌入矩阵分解成两个小矩阵,我们将隐藏层的大小与词汇嵌入的大小分开。这种分离使得在不大幅增加词汇嵌入的参数大小的情况下,更容易原创 2022-03-18 15:11:25 · 853 阅读 · 0 评论 -
Raki的读paper小记:XLNet: Generalized Autoregressive Pretraining for Language Understanding
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作BERT面临挑战依靠用掩码破坏输入,BERT忽略了被掩码位置之间的依赖性,并受到预训练-调整差异的影响创新思路通过对因式分解顺序的所有排列组合的预期可能性最大化,实现了双向语境的学习由于其自回归方法,克服了BERT的限制结合了Transformer-XL,打破了512token的限制实验结论大幅超越BERT的性能XL原创 2022-03-18 13:36:20 · 467 阅读 · 0 评论 -
Raki的读paper小记:RoBERTa: A Robustly Optimized BERT Pretraining Approach
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作BERT面临挑战创新思路超参数的选择对最终结果有重大影响实验结论bert的训练是不充足的,我们改进了训练方式达到了sotaExperimental SetupImplementationAdam的 ϵ\epsilonϵ 项非常敏感,在某些情况下,我们在调整它之后获得了更好的性能或改善了稳定性。同样地,我们发现在大批量训练时,设原创 2022-03-18 09:43:46 · 372 阅读 · 0 评论 -
Hugging Face Course-Diving in 抱抱脸 Tokenizers library (WordPiece tokenization & Unigram tokenization)
WordPiece tokenizationwordpiece是bert的分词算法,跟BPE很像,但实际的标记化工作是不同的Training algorithm⚠️ Google never open-sourced its implementation of the training algorithm of WordPiece, so what follows is our best guess based on the published literature. It may not be .原创 2022-03-17 19:40:28 · 646 阅读 · 0 评论 -
Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION
Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作BERT, RoBERTa面临挑战创新思路disentangled attention mechanism :每个词用两个向量表示,分别编码其内容和位置,而词之间的注意力权重则分别用关于其内容和相对位置的分解矩阵来计算。enhanced mask decoder :用于在解码层中加入绝对位置,以预测模型预训练中的掩码符号此外,一个新的虚拟对抗训原创 2022-03-17 16:21:48 · 729 阅读 · 0 评论 -
Raki的读paper小记:EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification
Abstract & Introduction & Related Work研究任务NLP数据增强已有方法和相关工作将句子翻译成法语再翻译回英语面临挑战NLP中的通用数据增强技术还没有被彻底探索过相关工作具有创造性,但往往很复杂,它们在实践中不常被使用,因为相对于性能增益而言,它们的实施成本很高创新思路使用四种方法进行数据增强:同义词替换、随机插入、随机互换和随机删除实验结论在五个数据集上使用一半的数据达到了之前用全部数据同样的准确率EDA同义词原创 2022-03-17 14:25:56 · 683 阅读 · 0 评论 -
Raki的NLP竞赛topline解读:NBME - Score Clinical Patient Notes
Description当你去看医生时,他们如何解释你的症状可以决定你的诊断是否准确。当他们获得执照时,医生们已经有了很多写病人笔记的练习,这些笔记记录了病人的主诉历史、体检结果、可能的诊断和后续护理。学习和评估写病人笔记的技能需要其他医生的反馈,这是一个时间密集的过程,可以通过加入机器学习来改进。直到最近,第二步临床技能考试是美国医学执照考试®(USMLE®)的一个组成部分。该考试要求应试者与标准化病人(受过训练的人,以描绘特定的临床病例)互动,并写下病人的笔记。训练有素的医生评分员随后用概述每个病例的原创 2022-03-12 21:27:40 · 4145 阅读 · 1 评论 -
Raki的nlp-begginer 提问
task1logistic回归的公式?softmax和logistic的异同点?logistic函数的缺点softmax的特点解释下bag of words 和 n-gram,有什么缺陷交叉熵损失的作用,为什么不选择最小均方误差或者绝对值误差?task2RNN,LSTM,GRU的结构,为什么可以缓解长程依赖问题?word embedding?Word2Vec,GloVe,还知道其他的词表征方式吗?(textrank,tf-idf,LSA,pLSA,ELMo,GPT,fastText,原创 2022-03-08 16:41:38 · 1044 阅读 · 1 评论 -
Raki的读paper小记:PromptBERT: Improving BERT Sentence Embeddings with Prompts
Abstract & Introduction & Related Work研究任务sentence embedding已有方法和相关工作ConSERTSimCSE面临挑战这些方法的目标是消除句子嵌入中的各向异性。然而,我们发现,各向异性并不是导致语义相似度差的主要原因。例如,在语义文本相似性任务中,对原始BERT的最后一层进行平均化甚至比对其静态标记嵌入进行平均化更差,但最后一层的句子嵌入比静态标记嵌入的各向异性要小一些我们发现分布不仅偏重于频率,而且在WordP原创 2022-03-03 22:08:24 · 1684 阅读 · 0 评论 -
Raki的读paper小记:SimCSE: Simple Contrastive Learning of Sentence Embeddings
Abstract & Introduction & Related Work研究任务sentence embedding已有方法和相关工作面临挑战创新思路用一种非常简单的无监督对比学习方法,来预测自己,仅仅使用标准的dropout作为噪声与以前的工作不同的是,之前的工作将其作为一个三分类任务(蕴含、中性和矛盾),我们利用蕴含对可以自然地作为正向实例的事实实验结论sota我们发现,dropout作为最小的数据增广,去除它就会导致表示坍缩增加相应的矛盾对作为ha原创 2022-03-01 14:07:18 · 729 阅读 · 0 评论 -
Raki的读paper小记:Leveraging Type Descriptions for Zero-shot Named Entity Recognition and Classification
Abstract & Introduction & Related Work研究任务命名实体识别和分类已有方法和相关工作面临挑战创新思路提出了第一种用于zero-shot的NERC的方法引入一个新的架构,利用许多实体类别的文本描述自然发生的事实实验结论在训练过程中被观察到的非实体的词有可能属于其中一个测试类别,基于这种观察我们提出几种不同的架构,基于交叉注意力在语句和类型描述之间用transformer,结合预训练模型我们通过以下方式探索对负类原创 2022-02-16 00:09:33 · 3578 阅读 · 0 评论 -
Raki的读paper小记:Discontinuous Named Entity Recognition as Maximal Clique Discovery
Abstract & Introduction & Related Work研究任务不连续NER已有方法和相关工作基于组合的模型首先检测所有的重叠span,然后学习用单独的分类器来组合这些片段基于过渡的模型通过一连串的移位-还原动作对不连续的span进行增量标记面临挑战现有的方法将其分为几个连续的阶段,在推理阶段模型输出依赖于前面的阶段,将会累计偏差exposure bias创新思路将不连续NER转化为寻找图中最大团的非参数化过程,避免了受到暴露偏差的问题原创 2022-02-15 22:51:55 · 1002 阅读 · 0 评论 -
Raki的读paper小记:Named Entity Recognition as Dependency Parsing
Abstract & Introduction & Related Work研究任务嵌套NER已有方法和相关工作面临挑战创新思路用依赖解析来做NER实验结论sotaMethods输入用bert,fasttext,char 三种embeddingbert用(Kantor and Globerson, 2019)的方案,得到一个目标token的上下文相关嵌入,每边有64个周围tokenchar embedding 用CNN三种embedding concat起来丢到原创 2022-02-15 01:45:11 · 701 阅读 · 0 评论 -
Raki的读paper小记:Neighborhood Matching Network for Entity Alignment
Abstract & Introduction & Related Work如果不是知识图谱选手,请先阅读实体对齐的科普:实体对齐介绍研究任务实体对齐已有方法和相关工作embedding-based methods面临挑战实体对齐是不容易的,因为现实生活中的知识图谱通常是不完整的,而且不同的知识图谱通常有异质的模式。因此,来自于两个知识图谱的同等实体可能有不同的表面形式或不同的邻接结构。相等实体之间的相邻关系不同的问题是无处不在的邻域大小和拓扑结构的差异给原创 2022-02-14 22:47:19 · 563 阅读 · 0 评论 -
Raki的读paper小记:Soft Gazetteers for Low-Resource Named Entity Recognition
Abstract & Introduction & Related Work研究任务低资源的命名实体识别已有方法和相关工作将基于语篇标签、词形和手动创建的实体列表(称为地名索引)的语言学特征整合到神经模型中会导致 在英语数据上实现更好的NER面临挑战但直接将地名词典特征整合到这些模型中是很困难的,因为这些语言的地名词典要么覆盖范围有限,要么完全没有。由于缺乏可用的低资源语言的注释者,扩展它们既费时又费钱。创新思路引入了soft-gazetteers,一种基于高原创 2022-02-13 21:13:35 · 542 阅读 · 0 评论