预训练语言模型🔥
文章平均质量分 92
预训练语言模型是近几年在NLP非常重要的研究内容。其采用自监督的方法在大规模语料上学习语言表征,并在下游任务上微调来达到最佳效果。本专栏主要讲解预训练语言模型,包括但不限于:BERT、RoBERTa、XLNet、Transformer-XL、ERNIE、K-BERT、GPT、ChineseBERT等
华师数据学院·王嘉宁
研究方向:深度学习、自然语言处理、知识图谱。
研究兴趣:大语言模型训练与推理、知识增强预训练、Prompt-tuning、小样本学习、问答系统、信息抽取。
展开
-
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning
目前很多preference pair都是站在样本(instance-lever)层面进行打标的,这会导致损失一些细节信息,对于MCTS这种需要以step层面进行学习的方式会不友好。在强化学习生态中,一个典型的工作AlphaZero就是采用这种迭代式的训练,其通过结合神经网络、强化学习以及蒙特卡洛树搜索(MCTS)实现这个迭代式过程。为了确保在树搜索过程中,在搜索过程中,采用Self-evaluation。在抽取偏好数据时,采用MCTS算法,将instance-level的偏好转换为step-wise。原创 2024-07-29 23:16:35 · 1014 阅读 · 0 评论 -
AgentBench: Evaluating LLMs As Agents
现如今,大语言模型在指令微调和偏好对齐的微调下能够展现出类似人类的智能。目前有许多工作提出了一些LLM-as-an-agent的工作,例如AutoGPT、BabyAGI、AgentGPT等。但是目前如何系统性地评估Agent的好坏依然是一个比较棘手的挑战。目前有一些评估的工作,比如文本类的游戏、多模态的游戏模拟等,但是这些评估方法通常是闭源、离散的,且场景过于单一。为了解决这个问题,本文提出AgentBench,一种多维度多场景(环境)的LLM-as-Agent的评估基准。原创 2024-07-29 23:11:33 · 1122 阅读 · 0 评论 -
Executable Code Actions Elicit Better LLM Agents
Github: https://github.com/xingyaoww/code-act大语言模型展现出很强的推理能力。但是现如今大模型作为Agent的时候,在执行Action时依然还是通过text-based(文本模态)后者JSON的形式呈现。通过text-based或JSON来实现工具的理解调用、memory的管理等。然而,基于文本或JSON的动作空间通常比较局限,且灵活性较差。例如某些动作可能需要借助变量暂存,或者是一些较为复杂的动作(取均值、排序)等。最近大模型也被发现能够在代码理解和生成任务上原创 2024-07-29 23:08:28 · 395 阅读 · 0 评论 -
RewardBench:Evaluating Reward Models for Language Modeling
Code:Dataset:在人类偏好的强化学习(RLHF)过程中,奖励模型(Reward Model)格外重要。奖励模型通常是大模型本身并在标注好的偏好数据上进行训练,从而赋予其能够识别好坏的能力。在RLHF过程中,Reward模型可以给予大模型生成结果的信号,基于这个信号来更新大模型参数,使得其可以进一步提高与人类的对齐能力。原创 2024-07-29 23:02:38 · 655 阅读 · 0 评论 -
SteerLM_ Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF
为了确保获得多样化的response,首先从用于训练的带注释数据集中枚举一组所有可能的attribute value组合。另外,RLHF的偏好没有考虑细粒度的Aspect(例如helpfulness, humor, toxicity),不同的Apsect对偏好的贡献是不同的;例如 生成高quality的文本、或者生成高humor的文本,或者生成同时具备quality、humor、helpfulness的文本等。大模型在做偏好对齐的时候,传统的RLHF需要耗费大量的资源。每一轮对话后,在Assistant。原创 2024-07-29 22:52:13 · 851 阅读 · 0 评论 -
大模型ReAct:思考与工具协同完成复杂任务推理
人类的认知通常具备一定的自我调节(self-regulation)和策略制定(strategization)的能力,对于解决一个复杂问题时,可以很自然地运用工作记忆(working memory)将任务相关的决策动作(actions)与思考推理(reasoning)相结合。虽然现如今诸如Chain-of-Thought(CoT)通过上下文提示的形式可以提高大语言模型step-by-step的推理能力,但是其依然属于静态的黑盒子,依靠其推理的结果。回顾一下Act-only的定义(类似强化学习中的过程),第。原创 2024-06-25 15:16:45 · 1113 阅读 · 0 评论 -
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs
虽然现如今大模型展现出无与伦比的表现,但是其在工具理解和使用方面依然存在不足,即根据用户的指令和意图来使用外部API。这是因为现有的指令微调任务大多数是基于语言任务,而忽略了工具的调用指令。因此,本文希望为开源的大模型探索一个可以使用工具的模型,并提出TooLLM。原创 2024-06-23 21:51:45 · 787 阅读 · 0 评论 -
大模型Chain-of-Thought(CoT)与Agent基础知识与介绍
大语言模型Chain-of-Thought与Agent原创 2024-06-04 20:12:06 · 1238 阅读 · 1 评论 -
【通览一百个大模型】Baize(UCSD)
订阅专栏可获得博主多年积累的全部NLP、大模型和算法干货资料大礼包,,助力NLP科研、学习和求职。原创 2023-10-24 00:57:47 · 570 阅读 · 0 评论 -
论文解读:Large Language Models as Analogical Reasoners
*归纳提示学习(analogical prompting)**旨在模型在解决一个新的问题时,能够自发性地寻找相似的已有的知识。对于像code-generation等复杂的任务,low-level exemplar generation不一定能过让模型很好地解决此类问题,因此本文提出一种high-level generation方法。上图中展示出,当模型规模越大时,解题的准确性也越高,同时我们提出的self-generation方法与baseline的提升幅度也越大。发现本文提出的方达到了SOTA。原创 2023-10-24 00:46:49 · 652 阅读 · 0 评论 -
论文解读:Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models
生成的内容与输入存在冲突:Input-conflicting hallucination, where LLMs generate content that deviates from the source input provided by users;原创 2023-09-19 11:40:08 · 1636 阅读 · 0 评论 -
论文解读:Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentati
开放域问答中,给定一个问题qqq以及一个文档库Ddii1mDdii1m,目标是给定一个回答aaa。先前的方法是通过一个retriever检索文档库,并获得与问题相关的文档,随后使用机器阅读理解的方式回答问题。afLLMpqafLLMpq,其中ppp表示prompt。如果使用检索增强的方式,则为afLLMpqLafLLMpqL,其中LL表示检索得到的support document。原创 2023-07-29 23:18:20 · 644 阅读 · 2 评论 -
论文解读:PRINCE: Prefix-Masked Decoding for Knowledge Enhanced Sequence-to-Sequence Pre-Training
简单来说,就是当模型在decoding阶段时,当预测第t个位置的token时,对t-1以及之前的某些token替换为mask,相当于模型在含有mask的prefix text来进行预测。预训练预料为Wikipedia,且饱含aligned的实体。在decoding阶段,如果在预测实体时,预测当前的token时,不再是输入真实的预测token,而是mask。当解码器预测实体标记时,噪声被注入,并且先前生成的部分实体标记对于后者是看不到的。,这可以激励模型更好地学习仅依赖于上下文来预测实体。原创 2023-07-29 23:14:22 · 196 阅读 · 0 评论 -
中文大模型评估数据集——C-Eval
作者强调了在这种具有挑战性的环境中评估LLM的重要性, 因为目前的LLM发展已经超越了创建一个休闲的聊天机器人–它涉及到能够与各种数据类型互动、接收反馈、推理和使用工具、甚至执行行动的复杂系统或代理的发展(Mialon等 人,2023)。(Muennighoff等人,2022)是通过将多任务提示微调与预训练的多语言BLOOM模型(Scao等人,2022)相结合而创建的,不仅使用英语提示,还使用机器翻译的提示来匹配多语言任务的语言,并且被认为能够进行任务和语言无关的泛化。是对原LLaMA在中文环境中的改编。原创 2023-07-29 23:11:43 · 1439 阅读 · 0 评论 -
论文解读:Factuality Enhanced Language Models for Open-Ended Text Generation
而往往为了降低GPU显存,通常采用chunk机制,导致很多文档被分割化,这些被分割后的文档可能只有一些代词,这会导致信息“碎片化”,并导致出现在具有相似上下文的独立文档中的实体的错误关联。模型的生成是逐个字符生成的,因此如果模型在没有任何prefix的前提下生成文本时,生成的最开始阶段的一些词是不会存在幻觉的,而随着不断地生成过程中,后面生成的词会促使整个文本产生幻觉。目前一个很大的挑战是如何评估模型的事实性,尤其是开放文本生成领域内,其需要涉及到定位真实知识在无数个世界知识内的位置。原创 2023-07-29 23:09:10 · 1831 阅读 · 0 评论 -
大模型幻觉评估方法——忠实性(Faithfulness)与事实性(Factuality)
在本篇文章中,我们首先通过一篇早期工作讨论了忠实度和真实度的含义是什么。然后,我们综述了评估文本摘要忠实度/真实度/一致性的各种方法。可以看到不管是对于不同任务还是不同评价维度,较为普遍的趋势是趋向于大而统一:更大的元评估实验设定、更多的预训练、更大的模型、更统一的视角,等等等等。当下,GPT-4的出色表现引起热议,但是似乎构建更可控、可解释、鲁棒的文本生成指标仍然是一个开放问题,还有很长的路要走。下篇文章中,我们会探讨一下提升近期文本摘要的忠实性的相关工作。原创 2023-07-20 11:34:07 · 3068 阅读 · 2 评论 -
HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models
尽管现在大模型拥有前所未有的能力,其依然会生成出一些幻觉文本,即生成出存在冲突或无法通过已有知识来验证的内容。本文探索:what types of content and to which extent LLMs tend to hallucinate?本文提出HalEval Benchmark,包括35000个幻觉/正常的样本,用于分析和评估大模型。其包含5000个通用的用户对话查询问题以及30000个任务相关的问题(包括QA、知识对话和文本摘要)。原创 2023-07-20 11:22:48 · 764 阅读 · 0 评论 -
深度探讨大模型位置编码及其外推性
现如今很多大模型都开始支持超过4096长度的推理,例如GPT-4支持超过30k,ChatGLM2-6B也支持最长为32K的文本,但是由于显存资源的限制,这些大模型在真正在训练过程中不一定要训练这么长的文本,通常在预训练时只会设计到4k左右,因此**如何确保在模型推理阶段可以支持远远超过预训练时的长度**,是目前大模型的核心问题之一,我们将这一问题归为**大模型的外推性**。原创 2023-07-16 18:38:12 · 2548 阅读 · 2 评论 -
【通览一百个大模型】GLM(THU)
订阅专栏可获得博主多年积累的全部NLP、大模型和算法干货资料大礼包,,助力NLP科研、学习和求职。原创 2023-07-15 21:29:16 · 1712 阅读 · 2 评论 -
【通览一百个大模型】XLNet(Google)
从宏观来看,XLNet 实现了站在巨人 BERT 肩膀上的新的突破,将 AR 模型和双向训练有机地结合在一起。从微观来看,XLNet 引入的几个改进方法各有所长:Permutation LM 使得语言模型在训练时可以充分利用上下文的信息;Two-stream encoding 很好地区分了预测目标和非预测目标的 attention 的计算使结果更训练更加合理;原创 2023-07-15 20:44:18 · 529 阅读 · 1 评论 -
基于ChatGLM的微调实现
下面描述具体的实现过程。原创 2023-07-15 20:06:54 · 1993 阅读 · 0 评论 -
【通览一百个大模型】CodeX(OpenAI)
主要介绍CodeX大模型原创 2023-07-09 14:29:45 · 2622 阅读 · 0 评论 -
【通览一百个大模型】Anthropic LLM(Anthropic)
主要介绍Anthropic LLM大模型原创 2023-07-08 15:25:11 · 927 阅读 · 0 评论 -
【通览一百个大模型】UL2(Google)
Prompt 主要适用于三个场景:低资源、低算力、统一场景。也曾在知乎上发表过想法:Prompt 在某种程度上可以进行模型的专家化(expertization)或者模块化(modularization),需要和进行沟通。这篇文章使用 paradigm prompt 进行 denoiser 的 mode switching,有进一步的启发意义。脱离 denoiser 的 mixture,可能会有更加宏大的 picture.原创 2023-07-08 15:17:09 · 766 阅读 · 0 评论 -
【通览一百个大模型】FLAN(Google)
主要介绍FLAN大模型原创 2023-07-08 15:07:09 · 1014 阅读 · 0 评论 -
【通览一百个大模型】近100个大模型总览
展示近100个大模型总览原创 2023-07-08 15:00:38 · 1167 阅读 · 1 评论 -
【通览一百个大模型】LaMDA(Google)
LaMDA是在DeepMind的Sparrow跟openai的instructGPT之前由谷歌提出的对话机器人,全称Language Models for Dialog Applications,是一个在海量对话跟web数据上进行预训练再在人工标注数据上做进一步微调后得到的参数量高达137B的大模型。LaMDA除了在生成文本质量有所提升外,通过在人工标注数据上做进一步finetune以及让模型学会检索利用外部知识源的能力,使得模型在安全性以及事实性这两个关键问题上获得明显提升。原创 2023-07-08 14:50:15 · 1550 阅读 · 0 评论 -
RLHF中的PPO算法原理及其实现
ChatGPT是基于InstructGPT实现的多轮对话生成式大模型。博主在之前的文章中已经介绍过关于)以及关于。那么除了如何训练一个基本的生成式模型外,大模型还需要关注于。在之前的文章中已经介绍了ChatGPT以及最近开源的一些类ChatGPT模型是如何实现对齐的,这里我们也详细介绍一下InstructGPT中进行人类对齐的核心算法——RLHF(人类对齐的强化学习)PPO算法。原创 2023-05-22 20:57:23 · 4189 阅读 · 1 评论 -
详谈大模型训练和推理优化技术
本文介绍大模型的训练和推理优化技术,包括混合精度训练、分布式训练DeepSpeed、INT8模型量化、参数有效性学习、混合专家训练、梯度检查点、梯度累积、Flash Attention等。原创 2023-05-19 18:03:31 · 13229 阅读 · 2 评论 -
【Chain-of-Thought 专题】The Unreliability of Explanations in Few-Shot In-Context Learning
实验中选择GPT-3作为测试,所有in-context example的input-output和explanation按照E-P或P-E进行拼接,在最大长度限制内尽可能拼接所有的example。如上图,相比一致性(解释与预测标签是否一致),GPT-3生成的解释信息更有可能是nonfactual(生成解释与文本中的事实不符)。因此,我们可以定义一个score,来量化factuality,并通过这个score,来调整预测label的概率分布。,那么GPT-3生成的解释信息是否靠谱呢?原创 2023-04-26 12:05:26 · 390 阅读 · 0 评论 -
InstructGPT原理讲解及ChatGPT类开源项目
本文分析InstructGPT以及相关开源项目原创 2023-04-26 11:32:49 · 2794 阅读 · 0 评论 -
基于DeepSpeed训练ChatGPT
教你如何使用DeepSpeed自行训练一个ChatGPT原创 2023-04-18 18:34:27 · 11231 阅读 · 3 评论 -
【In-Context Learning】Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?
In-Context Learning(ICL)是最近比较火热的方向,其主要针对超大规模模型(例如1750B参数量的GPT-3模型),在只提供少量标注样本作为提示的前提下,即可以实现很惊艳的效果。本文主要探索In-Context Learning的影响因素有哪些。原创 2023-03-28 16:56:21 · 2196 阅读 · 3 评论 -
【In-Context Learning】What Makes Good In-Context Examples for GPT-3?
In-Context Learning是最近比较火热的方向,其主要针对超大规模模型(例如1750B参数量的GPT-3模型),在只提供少量标注样本作为提示的前提下,即可以实现很惊艳的效果。In-Context Learning的影响因素有很多,本文主要关注在样本的挑选上。原创 2023-03-28 15:40:53 · 1960 阅读 · 5 评论 -
【Chain-of-Thought 专题】Self-consistency Improves Chain Of Thought Reasoning in Language Models
本文提出Self-consistency进一步提升Chain-of-Thought的效果原创 2023-03-28 14:17:39 · 2275 阅读 · 0 评论 -
【Chain-of-Thought 专题】Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
Chain of Thought(CoT)—— a series of intermediate reasoning steps—significantly improves the ability of large language models to perform complex reasoning.原创 2023-03-15 20:36:59 · 683 阅读 · 1 评论 -
【In-Context Learning】Meta-learning via Language Model In-context Tuning
In-Context Learning是最近比较火热的方向,其主要针对超大规模模型,在只提供少量标注样本作为提示的前提下,即可以实现很惊艳的效果。原创 2022-11-28 17:37:02 · 2460 阅读 · 1 评论 -
【HuggingFace轻松上手】基于Wikipedia的知识增强预训练
本文介绍基于entity masking的知识增强预训练语言模型的实现,以及在几个下游任务微调的方法。本文分享核心代码实现和相关数据。原创 2022-06-27 15:12:29 · 3299 阅读 · 3 评论 -
【预训练语言模型】WKLM: Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model
知识增强的预训练语言模型旨在借助外部知识库的结构化知识,在对语言模型进行预训练的时候显式地让模型学习到结构事实知识。本文分享一篇来自ICLR 2020的知识增强预训练的工作。原创 2022-06-26 15:40:38 · 1093 阅读 · 0 评论 -
【预训练语言模型】K-BERT: Enabling Language Representation with Knowledge Graph
【预训练语言模型】K-BERT: Enabling Language Representation with Knowledge Graph核心要点:融合KG到BERT,并非是embedding融合,而是将KG和原始文本结合形成sentence-tree;根据sentence tree提出soft-position和visible matrix以避免knowledge noise;K-BERT在中文领域上先预训练(不加KG),然后在fine-tuning(加KG)简要信息:序号属性原创 2021-12-31 15:41:25 · 1170 阅读 · 3 评论