自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(136)
  • 资源 (1)
  • 收藏
  • 关注

原创 心智理论在LLM中真的有用吗?《Limits of Theory of Mind Modelling in Dialogue-Based Collaborative Plan Acquisition》

基于对话的人机协作是指人类与人工智能(AI)代理通过对话来实现共同目标或任务的互动(Streeck等人,2011)。当人类相互协作时,他们依赖于两种主要能力:语言交流和心智理论(Theory of Mind, ToM),即推断自己和他人心理状态的能力(Premack和Woodruff,1978)。因此,为了成功与人类协作,AI代理也必须具备类似的能力(Williams等人,2022)。

2024-09-18 17:11:23 503

原创 结合蒙特卡洛树算法与对话规划:论文解读《Prompt-Based Monte-Carlo Tree Search for Goal-oriented Dialogue Policy Planning》

为了引入用于对话策略规划的树搜索方法,我们首先将规划表示为马尔可夫决策过程(MDP)。系统和用户之间的一个tha0sysu1sysu1usrat−1sysutsysutusrha0sys​u1sys​u1usr​...at−1sys​utsys​utusr​其中,aisysa_i^{sys}aisys​是第i轮中系统的对话行为,uisys。

2024-09-16 16:19:41 704

原创 【详细原理】蒙特卡洛树搜索

蒙特卡罗树搜索是一种强大的搜索算法,能够在复杂的决策空间中进行有效的搜索。通过大量的随机模拟和巧妙的选择策略,MCTS 在许多领域都展现出了卓越的性能。然而,其计算成本和对模拟策略的依赖性也是需要考虑的因素。随着计算能力的提升和算法的改进,MCTS 的应用前景将更加广阔。

2024-09-16 12:00:26 916

原创 更主动的对话规划者:PPDPP论文解读

论文引入了一种新颖的对话策略规划范式,利用一个可调的语言模型插件(命名为“即插即用对话策略规划器”PPDPP)来为大语言模型(LLM)制定策略。如图1(b)所示,PPDPP充当策略代理,预测对话代理在下一轮中应采取的对话策略。该策略首先可以通过现有的人类注释语料库进行有监督微调。然后,我们采用自我博弈范式,提示两个LLM(一个作为助手,一个作为用户)根据不同的案例背景信息进行角色扮演对话,以模拟对话代理和实际用户之间的多轮交互动态环境。

2024-09-15 20:56:37 1074

原创 融合直觉和理性:ACL2024《Planning Like Human: A Dual-process Framework for Dialogue Planning》解读

受心理学中的双重加工理论启发,该理论指出两种截然不同的思维模式——直觉(快速)和分析(缓慢),我们提出了“双重加工对话规划”(DualProcess Dialogue Planning, DPDP)框架。DPDP通过两种互补的规划系统体现了这一理论:在熟悉的上下文中采用直觉的策略模型,而在复杂和新颖场景中则使用深思熟虑的蒙特卡洛树搜索(MCTS)机制。

2024-09-13 17:09:27 1040

原创 LLaMa系列模型详解(原理介绍、代码解读):LLaMA 3

2024年4月18日,Meta 重磅推出了Meta Llama 3,Llama 3是Meta最先进开源大型语言模型的下一代,包括具有80亿和700亿参数的预训练和指令微调的语言模型,能够支持广泛的应用场景。这一代Llama在一系列行业标准基准测试中展示了最先进的性能,并提供了新的功能,包括改进的推理能力。

2024-05-20 15:06:39 15312 1

原创 LLaMa系列模型详解(原理介绍、代码解读):LLaMA 2

大型语言模型(LLMs)作为高度能力的人工智能助手,在需要跨多个领域专家知识的复杂推理任务中表现出巨大潜力,包括编程和创意写作等专业领域。它们通过直观的聊天界面与人类互动,这导致了快速和广泛的公众采用。考虑到训练方法的看似简单性,LLMs 的能力令人瞩目。自回归变压器首先在大量自监督数据上进行预训练,然后通过强化学习与人类反馈(RLHF)等技术与人类偏好对齐。尽管训练方法简单,但高计算需求限制了 LLMs 的开发,仅由少数参与者进行。

2024-05-19 16:41:34 4236 1

原创 LLaMa系列模型详解(原理介绍、代码解读):LLaMa

下图很直观的展示了旋转变换的过程:旋转编码 RoPE 可以有效地保持位置信息的相对关系,

2024-05-17 22:08:51 7156 1

原创 GRACE:梯度引导的可控检索增强基于属性的生成

在本文中,我们提出通过梯度引导的可控检索(GRACE)来增强基于属性的生成,考虑到目标属性(见图1)。具体来说,我们训练一个鉴别器来计算给定上下文的属性分布。我们构建了一个检索库,存储了从未标注数据中提炼出的自然文本及其语义和属性信息。生成模型通过可控检索提取具有相似语义的与属性相关的信息。我们设计策略来从检索结果中分离无关属性,并将预训练语言模型(PLM)表示融入生成过程中。此外,我们提出了一个算法,该算法基于梯度迭代修正逐步生成。

2024-03-17 13:38:47 988

原创 Multi-Attribute Controlled Text Generation with Contrastive-Generator and External-Discriminator

(1)提出了一种用外部判别器训练的对比生成器,以有效地生成具有所需属性的文本。还设计了 top-n 加权解码来进一步提高文本和所需属性之间的相关性。(2)我们进行了大量的实验来证明我们的方法可以在不牺牲语言质量的情况下生成具有所需情感和主题的文本。此外,我们的框架可以推广到新的控制代码,并在零样本生成上实现有希望的性能。

2024-03-14 13:32:54 932

原创 Controllable Natural Language Generation with Contrastive Prefixes:使用前缀微调指导多属性文本生成

(1)提出了一种新颖的框架,该框架利用带有冻结 LM 的前缀作为可控 GPT2 生成的轻量级替代方案。(2)提出了一种具有新颖目标的监督方法和无监督方法来进行前缀训练,其中考虑了前缀之间的关系并同时训练多个前缀。(3)这项工作为单方面控制和多方面控制提供了统一的视角。实验结果表明,我们的方法可以有效地指导单方面控制和多方面控制的生成。

2024-03-13 11:57:23 1027

原创 Attribute Alignment: Controlling Text Generation from Pre-trained Language Models:利用属性标签指导属性文本生成

在本文中,我们提出了属性对齐,将属性表示注入到预先训练的无条件 LM 中,而不改变 LM 参数。然而,由于在大规模预训练期间属性信号并未使用 LM 进行训练(Johnson et al., 2016;Keskar et al., 2019),因此我们引入了一个对齐函数来将属性表示桥接到 LM,以便它可以解释属性表示中的权重。简单来说,先使用LM对属性建模,然后使用属性对齐将其融合指导文本生成。

2024-03-12 20:13:07 822

原创 A Distributional Lens for Multi-Aspect Controllable Text Generation:一种创新性的多属性受控文本生成方法

正如上图所示,我们的方法主要涉及属性空间的构建,包括估算属性空间、搜索交集以及将交集映射到句子上。首先,我们旨在使用采样句子来构建一个属性空间,以尽可能准确地估计真实空间。我们采用了一个自编码器结构,其中潜在表征表示构成我们估计属性空间的点。为了确保我们的估计空间可靠地模型化属性,比如它们的概率分布和不同属性之间的关系,我们进一步附加了三个约束到表示上。(I)重构损失LRL_RLR​旨在桥接属性空间中的点与自然属性相关句子之间的差距,这是通过内容反映的属性来恢复的。(II)属性分类损失LC。

2024-03-12 12:12:31 876

原创 基于GPT-2的中文闲聊模型(Mindspore适配版),将Pytorch版本的GPT2中文闲聊模型移植为MindSpore版本并使用Gradio完成类似ChatGPT的聊天功能

基于GPT-2模型并采用中文聊天语料进行训练,本项目旨在开发一个高效能的中文闲聊机器人,以提供自然而流畅的对话体验。GPT-2,作为OpenAI推出的一款自然语言处理模型,因其强大的语言理解与生成能力而广受好评。本项目通过精心挑选和处理大量的中文聊天数据,使得闲聊机器人能够更加精准地把握中文语境和文化特点,从而在各种聊天场景中提供贴近人类的对话体验。全部代码和模型均在文末给出。

2024-02-03 17:26:07 1373 2

原创 从零开始复现GPT2(六):生成代码的实现

这段代码是一个完整的Python脚本,用于通过命令行界面生成使用GPT-2模型训练的文本。类,它使用了GPT-2模型。这个类能够基于给定的上下文生成文本。库来解析命令行参数。代码定义了一个用于文本生成的。

2024-02-03 15:48:22 1109

原创 从零开始复现GPT2(五):评估和可视化代码的实现

整体上,这个工具提供了一种灵活的方式来分析和理解模型在训练和评估过程中的性能变化,对于模型调优和理解其行为模式非常有帮助。这个实现体现了在NLP模型开发中常见的模式,即通过特定的评估规范和灵活的命令行参数接收方式,来支持模型的评估和性能分析。:接收通过命令行传入的参数,包括模型路径、评估语料库路径、词汇表路径、模型配置(序列长度、层数、头数、维度等)以及评估配置(批量大小、总步数、是否使用GPU)。:初始化评估规范时,接收评估数据集、词汇表路径、序列长度、模型的层数、头数、维度以及维度增长率等参数。

2024-02-02 16:54:18 616

原创 从零开始复现GPT2(四):训练代码的实现

参数列表训练批量大小,指定在训练过程中每个批次处理的数据数量。评估批量大小,指定在模型评估过程中每个批次处理的数据数量。总步数,指训练过程中的总迭代次数。评估步数,指定每多少步进行一次模型评估。保存步数,指定每多少步保存一次模型。模型保存路径,指定训练好的模型保存的位置。检查点保存路径,用于保存训练过程中的中间状态,以便于恢复训练或进行故障恢复。描述信息,用于记录这个训练配置的描述或备注。日志格式,指定训练过程中日志的输出格式。

2024-02-01 11:08:34 1285

原创 从零开始复现GPT2(三):词表,Tokenizer和语料库的实现

在构建词表的场景中,将词表大小设置为8的倍数可以确保数据在内存中的对齐。内存对齐是指数据在内存中按照一定的边界存储,这样做可以减少CPU或GPU在访问内存时的负载,从而提高数据处理的速度和效率。这个类的主要目的是为了处理一个经过分词处理的语料库,并在此基础上提供一些实用功能,适用于深度学习和自然语言处理任务中。类,这个类使用了一个词汇表(Vocab)实例和一些其他参数来进行文本的处理和标记化。是一个字典,将每个词汇映射到其在列表中的索引,以便快速查找。是一个列表,包含了所有的词汇(包括额外的特殊标记)。

2024-01-31 11:00:20 1998 1

原创 从零开始复现GPT2(二):模型实现和掩码机制

表示了 Transformer 模型中的一个层级,包括多头注意力层和前馈神经网络层,以及 Layer Normalization 层,用于处理序列数据和生成下一个时间步的输出。类用于创建一个未来掩码(future mask),在自回归模型GPT-2中,此掩码用于确保在预测每个位置的输出时,模型只能使用该位置之前的输入(即避免使用未来的信息)。这样,模型在训练时能够更好地捕捉数列中的因果关系,而不受到未来数字的干扰。通过在序列的未来位置添加偏移,创建了一个上三角的掩码,以避免模型在训练时看到未来的信息。

2024-01-22 11:49:54 1497

原创 从零开始复现GPT2(一):注意力机制、嵌入层和前馈神经网络的实现

网络则增强了模型在处理序列数据时的能力,使其能够在每个位置学习高级特征。这些特性共同使 GPT-2 成为处理各种复杂自然语言处理任务的强大工具。作为一种有效的激活函数,帮助模型捕捉非线性关系;,都是继承自 PyTorch 的。

2024-01-21 13:30:26 1734 3

原创 DuNST详解:将Self-Training机制融入受控文本生成中

让xxx为文本,yyy为属性标签,DlxiyiDl​{(xi​yi​)}是一个带有配对文本及其相应标签的标记数据集,DuxiDu​xi​是来自同一领域的无标记数据集。我们的目标是学习一个由θ\thetaθ参数化的属性可控生成器Ggθx∣yGgθ​x∣y(例如,一个大型的PLM),以生成高质量的文本x∼gθx∣yx∼gθ​x∣y(以自回归方式),满足给定的标签yyy。

2024-01-19 14:06:12 461

原创 从零开始复现BERT,并进行预训练和微调

这段代码是使用BERT模型进行预训练和微调的一个完整示例,主要包括预训练数据的处理、模型的加载和微调。中,主要工作是将输入的查询(queries)、键(keys)和值(values)通过三个独立的线性层进行转换,以生成对应的查询、键和值表示。在这个函数中,首先将模型部署到可用的GPU上(如果有的话),然后在每个epoch中遍历训练数据,使用交叉熵损失函数计算损失,并通过反向传播更新模型参数。在每一步训练中,首先将数据移动到指定的设备(如GPU),然后执行前向和后向传播,计算损失并更新模型的权重。

2024-01-10 10:59:04 2067

原创 BART论文解读:BERT和GPT结合起来会发生什么?

为了与当前摘要任务的最新技术进行比较,我们在两个具有不同特点的摘要数据集CNN/DailyMail和XSum上展示了结果。CNN/DailyMail中的摘要倾向于与源句子相似。抽取式模型在这里做得很好,甚至仅用前三个源句子作为基线的表现也非常有竞争力。尽管如此,BART在所有已有的工作中表现最好。相比之下,XSum高度概括,抽取式模型表现不佳。BART在所有ROUGE指标上大约比利用BERT的最佳前作提高了6.0分,这代表了在这一问题上性能的重大进步。在质量上,样本的质量很高(见第6节)。

2024-01-06 10:45:08 1375 1

原创 一种可扩展的多属性可控文本生成即插即用方法

相互干扰(MI)”是指在推理阶段(即零样本设置)时,多个单独训练但同时指导预训练模型的插件之间的干扰。然而,由于深度神经网络的复杂性,确切的干扰分析是困难的。直观上,如果在训练期间多个插件是同时优化的,这需要多方面标记的数据,它们的干扰将被最小化,因为它们已经学会在监督下合作地工作(即在监督设置中)。因此,我们使用在监督和零样本设置下隐藏状态的差异来近似估计多个插件的相互干扰。具体来说,让ϕiϕ​i​和ϕiϕ​i​分别是从单方面和多方面标记数据中学习的插件的参数。

2024-01-03 16:10:44 1016

原创 人工智能能理解幽默吗?《Can Language Models Make Fun A Case Study in Chinese Comical Crosstalk》论文解读

以“对口”为例。双人表演通常涉及两个角色,称为“捧哏”(简称“Peng”)和“逗哏”(简称“Dou”)。Dou的目标是通过语言和动作以滑稽的方式进行表演。Peng是支持角色,使对话更加流畅和清晰。Φu1v1u2v2uKvKΦ{(u1​v1​u2​v2​uK​vK​)}这是一个KKK轮的双向串话对话,包含2K个话语,其中K个来自于Dou(记为uuu)和KKK个来自于Peng(记为vvv请注意,uiu_iui​和。

2023-12-27 21:22:17 489

原创 基于GPT-2的新闻文本生成——News Creator,使用MindSpore实现

基于GPT-2的新闻本文生成项目——News Creator,是一个创新的自然语言处理项目,使用GPT-2作为核心模型,并结合专为新闻内容设计的AG news数据集进行深度微调。项目通过LoRA技术进一步提升了模型在特定新闻文本生成任务上的表现,有效地结合了模型的泛化能力与任务特异性,使其更加适合于高效、高质量的新闻文章生成。

2023-12-27 19:00:11 1229

原创 论文笔记:详解NEUPSL DSI

Dialog Structure Induction(DSI)是推断给定目标导向对话的潜在对话结构(即一组对话状态及其时间转换)的任务。它是现代对话系统设计和话语分析的关键组件。Probabilistic Soft Logic (概率软逻辑,PSL)是一种在统计关系学习和推理中使用的框架。它结合了逻辑编程的可解释性与概率模型的不确定性处理能力,适用于处理不确定和复杂的关系数据。

2023-11-25 20:53:37 560

原创 论文《Unsupervised Dialog Structure Learning》笔记:详解DD-VRNN

离散-可变循环变分自编码器(D-VRNN)和直接-离散-可变循环变分自编码器(DD-VRNN)概述。D-VRNN和DD-VRNN使用不同的先验分布来建模zt​之间的转换,如红色实线所示。xt​的再生成用蓝色虚线表示。状态级别的循环神经网络的循环关系以灰色虚线点划线表示。zt​的推断过程以黑色虚线表示。

2023-11-22 16:29:55 436

原创 论文《A recurrent latent variable model for sequential data》笔记:详解VRNN

循环神经网络(RNN)可以接收一个可变长度的序列xx1​x2​...xT​作为输入,并通过递归地处理每个符号同时维持其内部隐藏状态h。在每个时间步t,RNN读取符号xt​并更新其隐藏状态ht​∈Rpht​fθ​xt​ht−1​1其中f是一个确定性的非线性转移函数,θ是f的参数集。转移函数f可以通过长短期记忆(LSTM)[9]或门控循环单元(GRU)[5]等具有门控激活函数的方式实现。

2023-11-21 17:03:15 326

原创 论文阅读笔记:Tailor A soft-prompt-based approach to attribute-based controlled text generation

(1)提出了一种基于软提示的属性驱动 CTG 方法,名为 Tailor。为了在统一的范式中同时包括单属性和多属性 CTG,Tailor 使用一组预训练的前缀来引导一个固定的PLM生成具有预定义属性的句子,然后有效地将它们连接起来生成多属性句子。(2)通过实验揭示了连续提示的组合能力。为了增强这种组合,在单属性 CTG 后探索了两种有效的策略,一种是无需训练的策略(MAP mask + RP sequence),另一种是需要训练的策略(MAP connector)。

2023-11-20 23:21:29 178

原创 论文阅读笔记:Seen to Unseen Exploring Compositional Generalization of Multi-Attribute Controllable Dialogu

(1)首次探索用于多属性可控对话生成的组合泛化,并发现现有模型缺乏对分布外的多属性组合的泛化能力。(2)提出了一种解耦的可控生成方法,DCG,它通过属性导向提示的共享映射学习从已见值到未见组合的属性概念,并使用解耦损失来分离不同的属性组合。(3)引入了一个统一的无需参照的评估框架,MAE,用于不同粒度的属性。我们建立了两个基准测试,并且充分的实验结果证明了我们的方法和评价指标的有效性。

2023-11-20 23:20:59 191

原创 大语言模型(LLM)综述(七):大语言模型设计应用与未来方向

随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。

2023-11-08 20:19:50 1295

原创 大语言模型(LLM)综述(六):大型语言模型的基准和评估

为了检验LLM的有效性和优越性,已经提出了大量任务和基准,用于进行经验能力评估和分析。在本节中,我们首先介绍了LLM在语言生成和理解方面的三种基本能力评估类型,然后介绍了几种具有更复杂设置或目标的LLM的高级能力评估,最后讨论了现有的基准、评估方法和经验分析。

2023-11-07 20:38:51 3590 2

原创 大语言模型(LLM)综述(五):使用大型语言模型的主要方法

随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。

2023-10-31 21:03:23 887

原创 大语言模型(LLM)综述(四):如何适应预训练后的大语言模型

随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。

2023-10-27 17:41:20 1409

原创 大语言模型(LLM)综述(三):大语言模型预训练的进展

随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。

2023-10-24 22:55:48 1955 1

原创 大语言模型(LLM)综述(二):开发大语言模型的公开可用资源

随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。

2023-10-22 21:17:42 1487

原创 大语言模型(LLM)综述(一):大语言模型介绍

随着人工智能和机器学习领域的迅速发展,语言模型已经从简单的词袋模型(Bag-of-Words)和N-gram模型演变为更为复杂和强大的神经网络模型。在这一进程中,大型语言模型(LLM)尤为引人注目,它们不仅在自然语言处理(NLP)任务中表现出色,而且在各种跨领域应用中也展示了惊人的潜力。从生成文本和对话系统到更为复杂的任务,如文本摘要、机器翻译和情感分析,LLM正在逐渐改变我们与数字世界的互动方式。然而,随着模型规模的增加,也出现了一系列挑战和问题,包括但不限于计算复杂性、数据偏见以及模型可解释性。

2023-10-21 23:29:35 2064

原创 GPT系列论文解读:GPT-3

在GPT-2论文中,谷歌团队致力于将GPT应用于Zero-shot领域,当然取得了不错的结果,但是这种结果离真正能在市场上应用还差得远,所以在GPT-3这篇论文中,谷歌团队又将目光转回Few-shot领域中来,论文标题“”也写明了GPT-3不再追求极致的零样本,即在一个子任务上完全不给语言模型任何样例,转而将样本数量控制在较小范围。近年来,transformer语言模型的容量大幅增加,从1亿个参数,增加到3亿个参数,增加到15亿个参数,增加到80亿个参数,110亿个参数,最后增加到170亿个参数。

2023-10-08 13:45:31 2575

原创 GPT系列论文解读:GPT-2

GPT(Generative Pre-trained Transformer)是一系列基于Transformer架构的预训练语言模型,由OpenAI开发。以下是GPT系列的主要模型:GPT:GPT-1是于2018年发布的第一个版本,它使用了12个Transformer编码器层和1.5亿个参数。GPT-1的训练数据包括了互联网上的大量文本。GPT-2:GPT-2于2019年发布,是GPT系列的第二个版本。它比GPT-1更大更强大,使用了24个Transformer编码器层和1.5亿到15亿个参数之间的不同配置

2023-10-04 20:48:56 2101

BERT复现,包括数据集,预训练和微调

BERT 是一种基于 Transformer 架构的大型预训练模型,它通过学习大量文本数据来理解语言的深层次结构和含义,从而在各种 NLP 任务中实现卓越的性能。 核心的 BERTModel 类集成了模型的主体架构。它首先利用 BERTEncoder 编码器来处理输入的文本。这个编码器由多个 Transformer 编码块构成,每个编码块内包含多头注意力机制和前馈神经网络。这种结构能够有效地捕捉文本中不同词汇间的复杂关联,使模型能够理解上下文中的语义信息。模型还包括了两个关键任务:掩蔽语言模型(MaskLM)和下一句预测(NextSentencePred)。MaskLM 任务通过随机掩蔽输入文本中的某些单词,训练模型去预测这些被掩蔽的单词,从而学习语言的内部结构。下一句预测任务则是让模型判断两个句子是否是连续的,这有助于模型理解句子间的关系。 在 BERTEncoder 类中,包含了一个词嵌入层、一个段落嵌入层以及位置嵌入,这些嵌入层共同为模型提供了关于单词、其在句子中的位置以及句子所属段落的信息。随后,这些嵌入信息被送入一系列的 Transformer 编码块中,每个编码块都包含了多

2024-01-11

智能组卷和线上考试系统

1. 用户管理,实现用户注册登录,实现权限控制,学生可查看试题,模拟测试,查看成绩,教师可添加试题,发布考试,统计成绩等。 2. 题库管理,题目的录入,检索,维护,删除。 3. 智能组卷,由教师指定试卷难度,按照题库中的抽题策略进行组卷 4 . 在线考试,管理员发布考试,学生可以在指定日期在线考试,查看分数 5. 模拟练习,学生可以使用随机生成的模拟试卷检测学习成果,查看结果和分数 6. 成绩可视化,管理员可以查看整个参加考试的学生的成绩总分布

2023-03-14

qt项目 类似qq的网络聊天室

支持发送表情,文件,源码加备注,方便易懂

2022-02-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除