![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp
文章平均质量分 61
HxShine
这个作者很懒,什么都没留下…
展开
-
符尧:仅靠数据工程我能将LLM的上下文检索能力拓展到128K
原来的工作例如[1]认为,长期上下文建模是一种新的能力,必须通过大规模训练来“注入”。这导致在基础模型上(例如Llama系列)进行上下文长度拓展,需要大量的数据继续训练才能获得这个能力。作者假设在大规模预训练中通常已经获得了利用任意输入位置信息的长上文建模能力,且这种能力可以通过轻量级的持续预训练与适当的数据混合轻松扩展到训练期间未见过的更长上下文(例如,从4K扩展到128K)。LLM的上下文长度非常重要,作者尝试从数据工程的角度,通过继续预训练来扩展LLM上下文的长度。原创 2024-03-07 12:50:07 · 1046 阅读 · 0 评论 -
EMNLP 2023 | LLM工业界快速落地之PromptMix: 一种有效的混合数据增强策略将LLM能力迁移到小模型
这篇论文介绍了PromptMix,一种新颖的类边界数据增强方法,用于在训练数据有限的情况下提高大型语言模型的文本分类效果。该方法通过生成挑战性文本并结合Relabeling策略,生成类别精确的难样本,以便更好地迁移大型模型(如GPT3.5-turbo)的知识到更小、更经济高效的分类器(如DistilBERT和BERTbase)。论文的实验表明,PromptMix在2-shot场景中的效果优于多个5-shot数据增强方法。原创 2024-03-06 14:29:23 · 832 阅读 · 0 评论 -
符尧:别卷大模型训练了,来卷数据吧!【干货十足】
文章地址:https://本文回顾了语言模型学习的一些现象grokking, log-linear scaling law, emergent abilities,以及影响学习速度的数据因素data format, mix ratio, and curriculum(数据格式、混合比例和课程)。总结1: 数据工程的目标是建立一种理论并指导我们做数据(以及其他重要的学习因素),以便我们可以在没写一行代码时就可预测每项任务的最终表现(而不仅仅是预训练损失)。原创 2023-10-17 09:02:46 · 290 阅读 · 0 评论 -
kaggle大模型竞赛优胜方案总结与思考
比赛排行榜:总体上,RAG + LLM结合的模型可以在知识来源、检索方法、基座模型及其尺寸、是否需要微调等多个方面进行优化,针对本次比赛,对我收集到的一些方法进行对比,方便大家参考。RAG检索对于最终效果非常重要。包括不断优化检索数据质量,利用多种检索策略,基于传统方法(es,bm25,tfidf等),基于向量(开源方法,SimCSE训练),还可以通过ranker等方法筛选更好的结果都能带来不错的提升。如何有效的检索上下文知识,如何有效的处理长文本知识是难点,还有待进一步探索。原创 2023-10-17 08:54:35 · 564 阅读 · 0 评论 -
kaggle大模型竞赛优胜方案总结与思考
比赛排行榜:总体上,RAG + LLM结合的模型可以在知识来源、检索方法、基座模型及其尺寸、是否需要微调等多个方面进行优化,针对本次比赛,对我收集到的一些方法进行对比,方便大家参考。RAG检索对于最终效果非常重要。包括不断优化检索数据质量,利用多种检索策略,基于传统方法(es,bm25,tfidf等),基于向量(开源方法,SimCSE训练),还可以通过ranker等方法筛选更好的结果都能带来不错的提升。如何有效的检索上下文知识,如何有效的处理长文本知识是难点,还有待进一步探索。原创 2023-10-17 08:52:36 · 345 阅读 · 0 评论 -
TOT(Tree of Thought) | GPT-4+dfs搜索算法提升大模型复杂问题解决能力
Title【24点游戏】是什么?"Game of 24"是一种数学益智游戏,旨在通过组合和计算四个给定的数字(通常是1到9之间的整数)来得到结果为24的表达式。【Mini Crosswords 填字游戏】是什么?:Mini Crosswords是一种简化版的填字游戏,适合在有限的空间和时间内进行。与传统的填字游戏不同,Mini Crosswords使用较小的网格,通常为5x5或6x6,且只包含较少的单词。每个单词都有一个提示,玩家需要根据提示填写正确的单词。这个比较好理解,就是生成创意文本。原创 2023-07-04 12:51:18 · 524 阅读 · 0 评论 -
ICLR 2023 | Self-Consistency: Google超简单方法改善大模型推理能力
论文地址:https://arxiv.org/abs/2203.11171大模型(10B以上)生成结果的多样性diversity和质量比较好。本文的一大特点是没有利用不同的多个模型来集成,而是只用当个大模型采样输出不同的推理路径和结果来集成,有一个现象就是随着模型size的变大,集成的效果越来越高,说明大size的模型(一般要求要10B以上),其多样性diversity足够好,同时其生成的答案的质量也有保障,所以最终融合的效果才会比较好。可以将其当作是一种生成高质量训练数据的方法。原创 2023-07-04 12:45:11 · 1521 阅读 · 1 评论 -
ACL2023 | 大模型如何快速构建指令遵循数据集?self-instruct:用175条种子数据追上InstructGPT001效果
相当于验证了少量种子数据 + 原始预训练模型 => 生成大批量 多样性 + 质量还不错的 指令数据的可行性 => 好处是可以极大降低指令遵循数据集构建的成本。这篇文章解释了为什么大模型能听懂人类指令的困惑,可以看出,原始的GPT-3模型学习了非常多的知识,但是人类指令遵循的能力非常非常差,通过self-instruct构造大量的多样、高质量的指令数据和答案,模型就开始能听懂指令,理解这个指令的具体含义,并给出人类期望的respond响应。其中指令的【多样性】和回复的【质量】是非常关键的两个因素。原创 2023-06-18 00:48:21 · 1134 阅读 · 0 评论 -
ACL2023 | WebCPM:清华发布中文LFQA 数据集,探索搜索引擎和PLM大模型结合新范式
开发一个类似于WebGPT一样的中文版本的数据集,用于检索相关事实,并基于这些事实生成最终回答,并发布一个baseline模型。LFQA:旨在回答复杂的、开放式的问题,并带有详细的、段落长度的回答,一般有两个步骤,information retrieval:信息检索,检索出相关信息。information synthesis:信息合成,集成信息合成最终的答案。本文发布了WebCPM,第一个中文LFQA数据集,它的information retrieval信息检索数据是基于网络搜索的交互信息拿到的。原创 2023-06-13 23:57:56 · 1860 阅读 · 0 评论 -
GOOGLE | COT(chain of thought)开山之作,利用思维链提升复杂问题推理能力
auto COT说明:人工去编写COT耗时耗力,auto COT使用机器生成推理过程,然后拼接成COT样例组装成context送入llm,效果居然超过了manual-COT(人工设置的COT)探究COT(chain of thought)【一系列中间的推理步骤】如何能极大的提升大模型对复杂问题的推理能力。type1 task:随着模型scale变大,效果也逐渐提升,像文本分类,情感分类就是这样。原创 2023-06-11 11:55:07 · 1220 阅读 · 0 评论 -
OpenAI | Let’s Verify Step by Step详细解读
近期大模型的出现极大的提升了复杂问题的多步推理能力,例如可以通过逐步思考(CoT)改善推理任务,但是即使最先进的模型也会产生逻辑错误。如何训练一个更好的reward model,来做大模型的alignment对齐研究也是一个具有挑战的问题。结果监督(只提供最终的结果作为监督信号)和过程监督(提供每一个中间推理结果的反馈)哪个好,还有待详细对比和研究。实验步骤和方法:训练最可靠的reward model:对GPT-4模型进行微调,拿到最可靠的ORM和PRM。生成器。原创 2023-06-07 14:53:01 · 1146 阅读 · 0 评论 -
QLoRA | 48G内存训练24小时,改进版4-bit量化技术微调650亿参数的模型达到chatgpt99.3%的效果
and直接训练650亿参数的LLaMA进行16位微调需要780GB内存,成本太高。最近量化技术能降低LLM内存使用量,但是一般适应语推理阶段,其用在训练阶段效果就拉跨。本文证明可以在4-bit量化微调带来的损失,可以完全通过adpter来优化,达到原始16-bit微调的精度(chatgpt的99.3%),并极大程度的降低内存使用量同时降低训练时间。QLoRA方法要点如下:直接使用4-bit精度的量化利用Paging Flow优化内存spikes问题with LoRA。原创 2023-06-03 18:41:50 · 1745 阅读 · 0 评论 -
ACL2023 | 黑盒大模型如何微调?清华Decoder Tuning方法提升大模型few-shot场景效果
title:Decoder Tuning: Efficient Language Understanding as Decoding论文地址:https://arxiv.org/abs/2212.08408代码:GitHub - thunlp/DecT1 PipeLine of DecT在黑盒模型的输出端进行tuning,提升其在下游任务的表现pipeline解读:2 输入输出以及融合方法3 PLM原始模型权重标定方法4 ProtoNet模型选择原因1 实验baseline设置2 zero-shot和few原创 2023-05-31 14:37:36 · 978 阅读 · 0 评论 -
EMLP2021 | Google大模型微调经典论文prompt tuning
大模型对每个任务训练一个模型,开销和部署成本都比较高(一个大模型的权重可能要40G,多个任务成本比较高)。discrete prompts(离散prompts)是指人工设计prompts提示语加入到模型中,这样成本比较高,并且效果好像不太行。方案概述:通过反向传播更新参数来学习prompts,而不是人工设置prompts,同时冻结模型原始权重,只训练prompts参数,训练完以后,用同一个模型可以做多任务推理,而不用像原始model tuning方法一样,对每个任务都训练一个模型了。原创 2023-05-27 23:53:57 · 996 阅读 · 0 评论 -
ACL2022 | 大模型微调哪家好?小孩子才做选择,成年人当然是全都要
大模型不同的微调方法(PELT)例如LoRA,prefix-tuning,Adapter方法效果不同,在不同的任务上效果也有差异,到底选哪个方法好呢?parameter-efficient language model tuning (PELT) 方法能在参数量比fine-tuning小很多的情况下,perform追上fine-tuning的水平,但是不同的PELT方法在同一个任务上表现差异可能都非常大,这让针对特定任务选择合适的方法非常繁琐。原创 2023-05-26 10:55:59 · 757 阅读 · 0 评论 -
微软 LoRA| 使用万分之一的参数微调你的GPT3模型
NLP重要的范式为在通用数据集上预训练,然后特定领域微调,但是随着模型越来越大,继续全量fine-tuning变得越来越不可能。本文提出低秩Adaptation(LoRA),冻结了预先训练的模型参数,将可训练的秩分解矩阵注入到Transformer架构的每一层中,大大减少了下游任务的可训练参数的数量,训练参数只有GPT-3 175B模型的万分之一,GPU内存只需要1/3。原创 2023-05-23 01:13:59 · 917 阅读 · 0 评论 -
清华p-tuning | GPT也能做NLU?清华推出p-tuning方法解决GPT系列模型fine-tuning效果比BERT差问题
GPTs模型利用传统的fine-tuning技术在NLU任务上效果比较差,比同等量级的BERT效果要差。提出了新的P-tuning方法,构造一个可训练的连续prompt embedding,通过在连续空间中搜索更好的提示语prompt,来提升预训练模型的NLU能力。在知识探针检查任务LAMA上,zero shot条件下GPT复原了64%(P@1),提升了20+个点。在SuperGlue任务下,GPTs系列模型取得了可比的甚至超过BERTs系列监督学习的水平。原创 2023-05-23 00:06:49 · 553 阅读 · 0 评论 -
微软 | 把local小模型当作大语言模型的插件?
大语言模型想GPT-3和GPT-4权重没有开放出来,他们的参数量级太大没法部署到通用的硬件上面,导致在大规模的监督数据上做tuning非常具有挑战性。因为上下长度的限制,导致In-Context Learning(ICL)只能利用一小部分监督样本数据。本文提出了Super In-Context Learning(SuperICL),能够让黑盒的LLMs和本地的fine-tuned小模型一起结合,在监督任务中取得优越的性能。原创 2023-05-18 23:49:19 · 461 阅读 · 0 评论 -
chatgpt如何引入领域知识?mit团队利用gpt4做数据增强来提升小模型在特定领域的效果
大模型LLM训练成本比较高,如果想引入一些特定领域的知识,对其进行重新训练,开销比较大。小模型SML由于capacity有限同时训练数据有限,表现效果也不好。利用LLMs做数据增强小模型的训练数据大模型可以有效的refine和生成各式各样的QA对数据,利用这些领域内的数据进行fine-tuning后,小的多的模型在该领域上可以带来一个不错的提升。原创 2023-05-17 23:30:32 · 934 阅读 · 0 评论 -
ACL 2022 | chatglm微调神器P-Tuning v2论文学习
之前的prompt tuning方法对正常大小的模型(小模型例如BERT)效果比较差,另外对于有些任务(例如序列标注)效果也不太行。本文提出一个方法适应于不同大小的模型,并且对各种NLU任务效果都不错,之前的prompt tuning方法只在embedding层加了prompt参数,本文在其他层也添加可训练的prompt参数,提升其适用各种任务的容量(能力)添加可训练的参数,提升其适应各式各样任务的能力加的位置越深(越靠近输出层),效果越好。原创 2023-05-17 00:24:54 · 643 阅读 · 0 评论 -
GOOGLE|只有大模型才能理解你举的例子(In-context learning)是什么
背景知识:in-context learning,不需要训练模型,而只是给几个样例(任务的题目和相应答案答案)。研究in-context learning (ICL)如何受到先验语义信息和输入标签映射的影响的,以及通过比较一系列不同大小的模型,发现in-context learning只在大模型里面有用。利用两个实验来验证(ICL with flipped labels + ICL with semantically- unrelated label)原创 2023-05-14 23:12:23 · 455 阅读 · 0 评论 -
Chatgpt如何引入新的知识?我们来看下ACL2023 预训练模型能否对新注入的知识进行推理这篇文章
如何在预训练模型中引入最新的知识并验证模型能否对注入的知识进行推理呢?之前的模型编辑的方法注入知识只评估模型是否能复现原有知识,没有评估是否能对注入的知识进行推理。通过两个完型填空任务来做这个实验存在真实世界的的一个新实体数据集ECBD,以及简化版本easy-ECBD。一个新的人工设置的模板的benchmark,需要对注入的知识进行各种级别的推理。通过参数更新的方法以及非参数更新的方法来对比有效性参数更新fine-tuning(全部参数 or 最后一层)原创 2023-05-11 22:53:04 · 412 阅读 · 0 评论 -
chatgpt引入思考过程还是会出错?为什么不让机器检讨检讨自己(李宏毅)
3.2 同时引入搜索+思考过程(给出几个例子就可能得到比较好的结果)3.1 单独引入思考或者添加搜索结果还是可能出错。引入两个检讨的事例就可以做的很好。思考的过程相当于总结。原创 2023-05-07 22:53:22 · 199 阅读 · 1 评论 -
PLATO-2: Towards Building an Open-Domain Chatbot via Curriculum Learning论文学习
PLATO-2对话论文学习原创 2023-04-19 13:53:18 · 268 阅读 · 0 评论 -
A Comprehensive Capability Analysis of GPT-3 and GPT-3.5 Series Models论文学习
GPT系列模型在NLU任务上的表现评估原创 2023-04-18 10:34:56 · 237 阅读 · 0 评论 -
PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable论文学习
PLATO对话生成论文解读原创 2023-04-18 09:11:07 · 151 阅读 · 0 评论 -
Learning to Memorize Entailment and Discourse Relations for Persona-Consistent Dialogues论文学习
■ 对话系统的engagement和consistency非常重要■ 现有方法● 复杂的网络结构->大量的标注语料● 忽视了篇章的连贯性(discourse coherence)■ 本文● 方法○ entailment(限定继承):利用NLI(自然语言推理)数据学习一个继承关系的记忆单元,来应用到挖掘对话生成数据的潜在蕴含关系挖掘中○ discourse relations(话语关系):难道是对话间的关系?可能是连贯性。原创 2023-04-14 11:17:53 · 249 阅读 · 1 评论 -
信息抽取模型优缺点总结和优化点梳理
关系抽取模型优缺点分析和优化思路总结原创 2022-10-25 15:56:23 · 516 阅读 · 0 评论 -
如何理解联合关系抽取模型GPLinker?
GPLinker联合关系抽取模型解读原创 2022-10-20 16:13:54 · 2825 阅读 · 1 评论 -
信息抽取数据集和相关SOTA介绍
信息抽取数据集和相关SOTA介绍原创 2022-10-19 16:57:04 · 1176 阅读 · 0 评论 -
刷爆3路榜单,信息抽取冠军方案分享:嵌套NER+关系抽取+实体标准化文章学习总结
实体关系抽取学习总结原创 2022-10-18 20:15:22 · 200 阅读 · 0 评论 -
A Frustratingly Easy Approach for Entity and Relation Extraction 论文阅读
PIPELINE关系抽取最强模型解读原创 2022-09-28 16:50:13 · 613 阅读 · 1 评论 -
BERT-MRC数据预处理解读(以datasets squad数据为例)
BERT-MRC数据预处理详细解读原创 2022-09-04 00:54:15 · 802 阅读 · 0 评论 -
百度UIE:Unified Structure Generation for Universal Information Extraction paper详细解读和相关资料
UIE:Unified Structure Generation for Universal Information Extraction 模型解读和相关资源整理原创 2022-08-23 21:29:20 · 1916 阅读 · 1 评论 -
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding解读
一、概述二、详细内容abstracta. deberataV3, debearta的改进版本b. 方法1(改进mlm):通过使用RTD来替换原始的MLM任务,一个更有效的简单的预训练方法c. 方法2(改进electra):ⅰ. 原因:鉴别器和生成器将所有的token放到不同的方向,一直在那里拔河,tug-of-warⅱ. 方法:梯度解纠缠embedding来避免拔河ⅲ. 好处:提高训练效率+提升预训练模型质量d. 效果ⅰ. 和deberta一样的设置ⅱ. v3 large模型:NL原创 2022-04-02 15:55:45 · 2431 阅读 · 0 评论 -
Esimcse:Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding论
1 Abstractsimcse:两个文本不同dropout放到transformer里面,无监督来学习可能的缺点:embedding的时候,两个句子的长度都是一致的,这里可能会有biased,因为线上可不是这样的。实验统计观察,发现确实有这样的biased如何优化repetition operation来减轻它的影响momentum contrast?提高负样本对的数量?效果:比无监督的simcse好了2.02%ps:相关性统计指标pearson:协方差除以各自标准差原创 2022-04-02 10:33:23 · 1189 阅读 · 0 评论 -
seq2seq模型学习总结【用作query rewrite问题生成模型】
一、概述鱼与熊掌兼得:融合检索和生成的SimBERT模型:https://kexue.fm/archives/7427SimBERTv2来了!融合检索和生成的RoFormer-Sim模型:https://kexue.fm/archives/8454代码v1:https://github.com/ZhuiyiTechnology/simbert/blob/master/simbert.pyv2:https://github.com/ZhuiyiTechnology/roformer-sim二、代原创 2022-04-02 10:16:10 · 479 阅读 · 0 评论 -
DEBERTA: DECODING-ENHANCED BERT WITH DIS- ENTANGLED ATTENTION glue榜首论文解读
一、概览二、详细内容abstracta. 两个机制来improve bert和 robertaⅰ. disentangled attention mechanismⅱ. enhanced mask decoderb. fine-tuning阶段ⅰ. virtual adversarial training -> 提升泛化c. 效果ⅰ. 对nlu和nlg下游任务,提升都比较大ⅱ. 用一半的训练数据,效果就比roberta-large好了ⅲ. 48层的deberta,在21年6月原创 2022-03-15 17:18:09 · 1375 阅读 · 0 评论 -
再看SimCSE
一、概述二、要点分析原始ppt解读2.1 作用:语义表达作用检索+聚类2.2 简述:简单的对比学习来做语义表征预训练+对比学习:最佳的语义表征方法无监督:dropout有监督:NLI 蕴含+矛盾数据原理:利用对比学习目标,将预训练的embedding进行uniform化利用监督数据,aligns对齐相同语句的embedding表达2.3 原理:对比学习原理拉近邻居,push非邻居2.4 目标函数:无监督学习目标函数正样本:相同句子,独立的dropout原创 2022-01-10 16:05:56 · 707 阅读 · 0 评论 -
向量检索基础方法总结
一、向量检索图解总结原文:大规模特征向量检索算法总结 (LSH PQ HNSW):https://www.6aiq.com/article/1587522027341「向量召回」相似检索算法——HNSW:https://mp.weixin.qq.com/s/dfdNj9CZ3Kj2UwDr9PQcVg二、原始内容2.1 基础概念2.1.1 度量方式:欧式距离,cos距离,汉明距离,jaccard相似度2.1.2 分类● 基于空间划分○ 举例:乘积向量化,哈希等○ 优点:内存占用小,原创 2021-12-21 17:47:03 · 3102 阅读 · 0 评论