爱睡觉的Raki-CSDN博客

原创 Raki的读paper小记：GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints

图2展示了分组查询注意力和多头/多查询注意力的比较。适中数量的组导致插值模型的质量高于MQA，但比MHA更快，正如我们将展示的那样，这代表了一个有利的权衡。然而，更大的模型通常会按比例增加头的数量，使得多查询注意力在内存带宽和容量上都表现出更激进的削减。此外，较大的模型受到注意力的内存带宽开销相对较小，因为键值缓存随着模型维度的增加而增加，而模型的FLOPs和参数随模型维度的。此外，我们引入分组查询注意力，它是多查询注意力和多头注意力的插值，既能够在与多查询注意力相当的速度下实现接近多头注意力的质量。

2023-08-09 23:20:40 798

原创 Raki的读paper小记：RWKV: Reinventing RNNs for the Transformer Era

AttnQKVt∑i1Teqt⊤ki∑i1Teqt⊤kiviAttnWKVt∑i1tewtiki∑i1tewtikiviwti∈RT×T是学习到的位置偏移，矩阵中每个元素是一个标量。

2023-07-30 03:18:44 1375

原创 Raki的读paper小记：SELF-INSTRUCT: Aligning Language Models with Self-Generated Instructions

用GPT3生成的instructions贡献：(1) 我们引入了SELF-INSTRUCT，一种使用最少人工标记数据诱导指令遵循能力的方法；(2) 我们通过广泛的指令调优实验证明了其有效性；(3) 我们发布了一个大规模的合成数据集，包含52,000个指令，以及一组手动编写的新任务，用于构建和评估未来的指令遵循模型。SELF-INSTRUCT是一种生成任务指令数据的方法，它使用预训练的普通语言模型自身来生成任务，经过过滤和调优，可以让模型更好地遵循指令。

2023-07-27 00:48:47 719

原创 Raki的读paper小记：Retentive Network: A Successor to Transformer for Large Language Models

RetNet = linear attention + rope + 显式衰减（即 $\gamma$）

2023-07-24 01:32:49 648

原创 Raki的读paper小记：LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

研究任务对大模型进行部分微调已有方法和相关工作现有技术通常通过扩展模型深度引入推理延迟（Houlsby 等人，2019；Rebuffi 等人，2017），或通过减少模型可用序列长度（Li 和 Liang，2021；Lester 等人，2021；Ham-bardzumyan 等人，2020；Liu 等人，2021）面临挑战这些方法通常无法达到微调基线，提出了效率与模型质量之间的权衡。创新思路学习过度参数化的模型实际上位于低内在维度上。

2023-07-23 18:46:56 799

原创 windows11安装pytorch2.0

换了新电脑，好久没用windows了，配置一下环境，顺便记录一下方便帮助AI小白不会浪费时间在装环境上（一星期不夸张hah）打开命令行，然后输入nvidia-smi，检查自己的显卡驱动也可以通过图形界面查看首先在找到我的电脑，右键点击选检查好了显卡之后，我们可以先安装pycharm下载完之后一路勾选无脑点就好了，这样我们就配置好了pycharm，这时候我们需要python解释器和环境管理工具。

2023-04-17 20:34:06 907

原创思考AI科研的未来

今天不聊paper，来聊一些现实的问题，AI科研发展？

2023-04-06 19:20:27 749 1

原创近几年NLP比较promising的方法

对比学习的想法是，把不同类别的样本在特征空间推开，而让相似的样本距离更近，从而获得更好的样本表示思想是构造正负样本对进行优化，在CV那边负样本非常容易构造，而NLP因为token的离散性并没有那么容易构造，而SimCSE发现仅仅使用dropout构造出的负样本就能达到很好的效果。

2023-03-23 19:33:45 720

原创 Raki的读paper小记：Forget-free Continual Learning with Winning Subnetworks

l1WSN联合学习与每个任务相关联的子网络相关的模型权重和任务自适应二进制掩码，同时尝试通过重用之前子网络的权重来选择要激活的一小组权重（获胜票），每张中奖彩票产生的二进制掩码被编码为一个N位二进制数字掩码，然后使用霍夫曼编码进行压缩，以实现网络容量相对于任务数量的亚线性增长与图1a基于修剪的CL方法不同，该方法在预先训练的主干网络中获得特定于任务的子网络，我们。为了在模型学习新任务时允许前向转移，我们将学习到的，但有选择地，而不是使用所有权重（图1b），这可能会导致有偏的转移。

2023-03-05 22:43:42 922

原创 Raki的读paper小记：Neuro-Inspired Stability-Plasticity Adaptation for Continual Learning in Sparse Nets

中增加相同数量的新连接，保持每层的密度，新的连接是随机选择的，只要它们不形成稳定单元的新输入，这保证了连接增长不会破坏稳定单元学习的表示。单元的总激活是否是其对学习任务的贡献的有效指标，观察到移除最活跃的单元比移除相同数量的随机选择单元更会降低性能。在两个任务之间的边界处，它将连接冻结到新的稳定单元中以稳定这些单元，即它不允许相应的权重在该点之后发生变化。在任务边界上，候选稳定单元被提升为稳定单元，稳定单元之间的连接被冻结，然后我们重新初始化剩余的连接。因此可塑单元的功能的未来变化不会传播到稳定单元。

2023-03-04 16:29:36 348

原创 Raki的读paper小记录：Online Continual Learning through Mutual Information Maximization

batch CL每个task的数据可以训练任意个epoch，但是online CL每个任务的数据都是以流的形式逐渐出现的，只要积累了一小批训练样本，就可以进行学习inter-task CF指的是学到后面的任务忘了前面的任务intra-task CF指的是一个任务内，学到后面的batch忘掉了前面batch的知识因为online CL每个样本只看到一次，所以只有OCL才会intra-task CF。

2023-03-03 14:51:55 629

原创 Transformer及其子孙后代

attention is all you need，现在已经是money is all you need时代了（x首先介绍AtentionQKVsoftmaxdkQKTVq，k和v都是原输入x通过变换矩阵得到的q和k相乘得到系数矩阵，用softmax进行归一化，再乘v得到加权后的表示，这就是自注意力做的事情过程如图：模型图。

2023-03-01 16:17:09 822

原创 Raki的读paper小记：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

当重用之前的state信息的时候，保持他们的位置信息也是非常重要的，如果依旧使用绝对位置编码，会出现两个segment用了同样的位置的情况，但实际上却差了一个segment的长度，这样会使模型无法区分他们的位置信息。最大可能的依赖是图b的面积下的点，与截断的BPTT不同的是，这里的方法缓存了一连串的隐状态，而不是最后一个，因此应该与相对位置编码技术一起应用。在训练过程中，为前一个片段计算的隐藏状态序列是固定的，并在模型处理下一个新片段时作为扩展上下文被重新使用。Transformer-XL的总公式。

2023-02-28 22:11:48 278

原创 Raki的读paper小记：BART

在预训练阶段，encoder类似bert，decoder类似gpt，一个双向一个自回归在fine-tune阶段，未被破坏的文本被同时输入到encoder和decoder，用decoder的最后隐藏层作为表示这种设置的一个关键优势是去噪的灵活性；可以对原始文本进行任意的转换，包括改变其长度。

2023-02-28 01:24:12 432

原创 Raki的读paper小记：ConTinTin: Continual Learning from Task Instructions

此工作提出了一个NLP持续学习新范式

2023-01-12 01:32:18 599

原创 Raki的读paper小记：Continual Learning of Natural Language Processing Tasks: A Survey

来自UIC的2022最新NLP持续学习综述，第一次总结了各种任务范式

2023-01-06 19:27:06 1604 1

原创 Raki的读paper小记：An Image is Worth One Word Personalizing Text2Image using Textual Inversion

跟prompt非常类似，但是用了图片在特征空间的表示来学习。

2022-09-25 00:09:47 2346

原创 Raki的读paper小记：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

在视觉任务上，可惜没看到NLP那边杀起来。

2022-09-02 20:19:31 1547

原创 Raki的读paper小记：CLIP:Learning Transferable Visual Models From Natural Language Supervision

然后，可以通过自然语言提示利用该任务学习，以实现对许多现有数据集的zero-shot。在足够的规模下，该方法的性能可以与任务特定的监督模型匹敌，尽管仍有很大的改进空间。算是小神作，实验巨大巨全，启发了后面多模态很多很多的工作，初步展现大模型在多模特领域的超强威力。我们发现，采用该范式会使计算机视觉领域出现类似行为，并讨论了这一研究领域的社会影响。我们研究了是否有可能将NLP中任务无关的网络规模预训练的成功转移到另一个领域。使用自然语言作为监督信号，把规模做大，并且不需要标注。

2022-09-02 17:30:32 940

原创 Raki的读paper小记：ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

研究任务已有方法和相关工作面临挑战创新思路实验结论。

2022-09-02 16:14:28 483

原创 Raki的读paper小记：OFA: UNIFYING ARCHITECTURES, TASKS, AND MODALITIES THROUGH A SIMPLE Seq2Seq FRAMEWORK

研究任务已有方法和相关工作面临挑战创新思路实验结论为了在保持多任务性能和易用性的同时更好地泛化开放式问题，我们认为全能模型应具有以下三个属性：1.）：支持不同类型任务的统一任务表示，包括分类、生成、自监督代理（pretext-task）任务等。并且对预训练或fine-tune不可知2.：所有任务之间共享的统一输入和输出表示，以处理不同的模态3.：足够的任务多样性，以稳健地积累泛化能力。

2022-08-21 22:40:21 1249

原创 Raki的读paper小记：Prompting ELECTRA: Few-Shot Learning with Discriminative Pre-Trained Models

我们发现，这些模型的表现一直优于用同等甚至更少的计算量训练出来的MLMs，这表明判别性的预训练模型在zero-shot和few-shot上更有效。分析表明，来自ELECTRA生成器的失败预测实际上可以将具有相反含义的否定词从正确的标记传送到鉴别器，这增强了ELECTRA区分zero-shot预测中具有相反含义概念的能力。分析表明，ELECTRA的生成器很可能将反义词等否定词反馈给判别器，这在预训练期间起到了直接对比的作用。个提示，该模型将正确的目标词预测为原始标记，将不正确的目标单词预测为生成的标记。...

2022-08-18 00:31:14 302

原创 Raki的读paper小记：SimVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

在我们的初步实验中，我们发现编码器-解码器模型引入的inductive bias将编码与生成解耦，有助于改善下游任务。另一方面，我们的PrefixLM公式是模态无关的，因此我们可以另外包括纯文本语料库，以补偿alt文本数据中的噪声文本监督。与以前的MLM风格的VLP方法相比，我们在序列到序列框架下的PrefixLM模型不仅享有MLM中的双向上下文表示，而且可以执行类似于LM的文本生成。我们的工作为现有的VLP范式提供了一个很有前途的替代方案，我们希望我们的工作能够启发生成VLP的未来研究。......

2022-08-16 20:49:00 964

原创信息抽取小Project

最近封在宿舍，炼丹不顺，浅给朋友写个课程project吧～参考：传统方法BM25解决短文本相似度问题Ranking算法评测指标之 CG、DCG、NDCGMRR vs MAP vs NDCG: Rank-Aware Evaluation Metrics And When To Use Themtask1在数据集上跑BM25并且用mAP和NDCG作为metric重点：用numpy 实现mAP和NDCG，并取得一个尽量高的分数task2使用词向量，训练logistic regression，分析

2022-04-15 21:55:02 368

原创 Raki的读paper小记：Dark Experience for General Continual Learning: a Strong, Simple Baseline

Abstract & Introduction & Related Work研究任务通用持续学习已有方法和相关工作面临挑战忽略了实际场景的特性，即数据流不能被塑造为任务序列，而且离线训练也不可行我们致力于实现一般持续学习（GCL），在这种情况下，任务边界模糊，领域和类别分布逐渐或突然转变。我们通过将重现与知识蒸馏和正则化相混合来解决这个问题；我们简单的baseline，即黑暗经验重放，与整个优化轨迹中采样的网络对数相匹配，从而促进与它的过去的一致性创新思路依靠黑暗知

2022-04-10 11:55:58 2263 2

原创 Raki的读paper小记：Kernel Continual Learning

Abstract & Introduction & Related Work研究任务持续学习已有方法和相关工作面临挑战创新思路部署了一个外显记忆单元，为每个任务存储一个子储存每个任务的子样本集，以学习特定任务的基于核岭回归的分类器不需要记忆重放，而且系统性地避免了分类器的任务干扰我们进一步引入变分随机特征，来为每个任务学习一个数据驱动的内核，为此，我们将核持续学习表述为一个变分推理问题，其中随机傅里叶基被纳入为隐变量实验结论随机傅里叶基础上的变分后验分布是从每

2022-04-09 17:20:50 612

原创 Raki的读paper小记：DualNet: Continual Learning, Fast and Slow

Abstract & Introduction & Related Work研究任务持续学习已有方法和相关工作面临挑战虽然无监督和元训练在简单的数据集如MNIST和Omniglot上显示出比较好的结果，但它们缺乏对现实世界基准的扩展性。相比之下，我们的DualNet将表征学习解耦到慢速学习器中，通过与监督学习阶段的同步训练，在实践中是可以扩展的。此外，我们的工作将自我监督的表征学习纳入持续的学习过程中，不需要任何预训练步骤创新思路提出了DualNet，其中包括一个快速

2022-04-09 15:21:42 3366 1

原创 Raki的读paper小记：Rational LAMOL: A Rationale-Based Lifelong Learning Framework

Abstract & Introduction & Related Work研究任务持续学习（lifelong learning）已有方法和相关工作LAMOLComponent Freezing：虽然组件冻结也是微调过程中的一种常见做法，但它是为了防止模型低层的常识损失，相比之下，许多基于架构的LL方法，例如Rusu等人（2016），利用组件冻结来防止改变从以前的任务中学到的知识，并扩大模型以适应新的任务，从而使模型对遗忘免疫，我们的模型与基于架构的方法不同，只有一小部分模型被

2022-04-09 11:10:31 1498

原创 Raki的读paper小记：LAMOL: LANGUAGE MODELING FOR LIFELONG LANGUAGE LEARNING

Abstract & Introduction & Related Work研究任务lifelong learning已有方法和相关工作面临挑战现有方法大多基于图片或者游戏，而不是语言创新思路提出了一种基于语言模型的lifelong learning方法重现以前任务的伪样本，同时不需要额外的内存或模型容量实验结论结果显示，LAMOL可以防止灾难性遗忘，而没有任何不妥协的迹象，并且只用一个模型就可以连续完成五种非常不同的语言任务sota此外，我们建议在伪

2022-04-09 09:25:34 710

原创 Raki的读paper小记：CLASSIC: Continual and Contrastive Learning of Aspect Sentiment Classification Tasks

Abstract & Introduction & Related Work研究任务aspect sentiment classification in domain incremental learning对比持续学习已有方法和相关工作完善的只是新任务的学习，他们并没有处理灾难性遗忘的问题，每个任务使用一个单独的网络。基于胶囊网络面临挑战创新思路第一次在ASC领域探索持续学习结合了对比学习现有的对比学习使用现有数据（如图像）的各种转换（如旋转和裁剪）来

2022-04-06 22:31:26 980

原创 Continual Learning for Text Classification with Information Disentanglement Based Regularization

Abstract & Introduction & Related Work研究任务文本分类持续学习已有方法和相关工作基于回放的模型基于正则化的模型面临挑战创新思路我们提出的方法首先将文本隐藏空间分解为所有任务的通用表示和每个单独任务的特定表示，并进一步以不同的方式对这些表示进行调整，以更好地约束概括所需的知识我们还介绍了两个简单的辅助任务：下一句预测和任务id预测，用于学习更好的泛型和特定表示空间实验结论sota把信息分解成一般信息和任务特定

2022-04-06 17:51:36 995

原创 Raki的读paper小记：PURE：A Frustratingly Easy Approach for Entity and Relation Extraction

Abstract & Introduction & Related Work研究任务实体和关系抽取已有方法和相关工作结构化预测，两个任务使用同一框架多任务学习，面临挑战长期以来，人们一直认为联合模型可以更好地捕捉实体和关系之间的相互作用，并有助于缓解错误传播问题创新思路我们的方法基本上是建立在两个独立的编码器上，只是使用实体模型来构建关系模型的输入通过一系列仔细的检查，我们验证了为实体和关系学习不同的上下文表征的重要性，在关系模型的早期融合实体信息，

2022-03-20 16:38:21 2203

原创 Raki的读paper小记：FastText：Enriching Word Vectors with Subword Information

Abstract & Introduction & Related Work研究任务word representation已有方法和相关工作基于形态学的分解面临挑战流行的学习这种表征的模型忽略了单词的形态，为每个单词分配了一个不同的向量。这是一个局限性，特别是对于具有大词汇量和许多稀有词汇的语言来说创新思路提出了一种基于skipgram的模型，每个词都被表示为一个由n个字符组成的包。每个字符n-gram都有一个向量表示；单词被表示为这些表示的总和允许我

2022-03-20 11:30:40 1021

原创 Raki的读paper小记：Enhanced Language Representation with Label Knowledge for Span Extraction

Abstract & Introduction & Related Work研究任务用标签知识来增强文本表达已有方法和相关工作最近的工作引入了标签知识，通过将span提取任务形式化为一个问题回答问题来增强文本表示面临挑战由于训练和推理的低效率，QA形式并没有充分发掘标签知识创新思路它对文本和标签注释进行独立编码，然后通过一个精心设计的语义融合模块将标签知识整合到文本表示中实验结论在四个数据集上sota，大幅减少了训练时间标签知识被隐性地

2022-03-19 19:06:53 1223

原创 Raki的读paper小记：Unified Named Entity Recognition as Word-Word Relation Classification

Abstract & Introduction & Related Work研究任务NER同一建模模型（flat，nested，discontinuous）已有方法和相关工作序列标注基于超图的方法seq2seq方法基于span的方法现有方法focus如何准确识别实体边界面临挑战在推理过程中同时存在假结构和结构模糊的问题解码效率曝光偏差基于span的方法受限于最大span长度，模型复杂度创新思路提出了一种基于word-word关系分类的统一N

2022-03-19 12:36:36 1400

原创 Raki的读paper小记：SpanBERT: Improving Pre-training by Representing and Predicting Spans

Abstract & Introduction & Related Work研究任务一种预训练方法，旨在更好地表示和预测文本的span已有方法和相关工作面临挑战创新思路在BERT的基础上，mask连续的随机span而不是tokens训练span边界表征来预测被mask的span的全部内容，而不依赖其中的单个token表征实验结论在同样的训练数据下，在QA数据集上达到了sota为了实现SpanBERT，我们建立在BERT的一个精心调整的副本上，它本身

2022-03-18 22:34:29 742

原创 Raki的读paper小记：Dice Loss for Data-imbalanced NLP Tasks

Abstract & Introduction & Related Work研究任务数据不平衡的NLP任务已有方法和相关工作面临挑战负样例明显多于正样例，而且大量的容易负面的例子压倒了训练。最常用的交叉熵标准实际上是以准确性为导向的，这在训练和测试之间产生了差异。在训练时，每个训练实例对目标函数的贡献是相同的，而在测试时，F1得分更多关注的是正面实例创新思路将交叉熵损失函数替换成dice loss为了进一步减轻训练中来自容易负样例例子的支配性影响，我们建议将训

2022-03-18 20:24:38 1245

原创 Raki的读paper小记：Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

Abstract & Introduction & Related Work研究任务sentence embedding已有方法和相关工作InferSentUniversal Sentence EncoderSkip-Thought面临挑战BERT在文本语义相似度上达到了sota，然而，它需要将两个句子都送入网络，这导致了大量的计算开销。在10,000个句子的集合中找到最相似的一对，需要用BERT进行大约5千万次推理计算（约65小时）。BERT的构造使其不适合

2022-03-18 18:30:52 907

原创 Raki的读paper小记：ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作面临挑战虽然它们在转移到下游的NLP任务时产生了很好的结果，但它们通常需要大量的计算才能有效创新思路我们提出了一个更有样本效率的预训练任务，叫做替换token检测。我们的方法不是mask输入，而是通过用从小型生成器网络中抽样的合理的替代物来替换一些token来破坏它我们不是训练一个预测被破坏的token的原始身份的模型，而是训练一个判别模型，预测

2022-03-18 17:45:44 2358

原创 Raki的读paper小记：ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

Abstract & Introduction & Related Work研究任务预训练语言模型已有方法和相关工作面临挑战越来越大的模型需要更多的计算资源和时间去训练创新思路因子化嵌入参数化跨层参数共享用SOP替换NSP实验结论sotaALBERT用了两个很重要的技术来减少参数规模因子化嵌入参数化。通过将大的词汇嵌入矩阵分解成两个小矩阵，我们将隐藏层的大小与词汇嵌入的大小分开。这种分离使得在不大幅增加词汇嵌入的参数大小的情况下，更容易

2022-03-18 15:11:25 922

空空如也

空空如也