NLP
文章平均质量分 81
不定期发布论文解读,论文复现以及一些相关知识点
优惠券已抵扣
余额抵扣
还需支付
¥29.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
365JHWZGo
曾经曾经,有个人爱你很久
展开
-
论文阅读》通过混合潜在变量实现多样化、相关和连贯的开放领域对话生成 AAAI 2023
亲身阅读感受分享,细节画图解释,再也不用担心看不懂论文啦~无抄袭,无复制,纯手工敲击键盘~今天为大家带来的是《Towards Diverse, Relevant and Coherent Open-Domain Dialogue Generation via Hybrid Latent Variables》出版:AAAI时间:2023类型:开放域对话生成特点:多样性;一致性;混合隐变量;回复生成作者:Bin Sun。原创 2024-05-20 22:11:18 · 256 阅读 · 0 评论 -
《论文阅读》因果情绪蕴含的知识桥因果交互网络 AAAI 2023
亲身阅读感受分享,细节画图解释,再也不用担心看不懂论文啦~无抄袭,无复制,纯手工敲击键盘~今天为大家带来的是《Knowledge-Bridged Causal Interaction Network for Causal Emotion Entailment》出版: AAAI时间:2022类型:因果情绪蕴含关键词:知识桥;因果;情绪;蕴含作者:Weixiang Zhao, Yanyan Zhao等。原创 2024-03-25 16:18:57 · 411 阅读 · 0 评论 -
《论文阅读》带边界调整的联合约束学习用于情感原因对提取 ACL 2023
亲身阅读感受分享,细节画图解释,再也不用担心看不懂论文啦~无抄袭,无复制,纯手工敲击键盘~今天为大家带来的是《Joint Constrained Learning with Boundary-adjusting for Emotion-Cause Pair Extraction》出版:ACL时间:2023类型:情绪原因对提取关键词:联合约束学习;边界调整;情绪;原因;作者:Huawen Feng, Junlong Liu等。原创 2024-03-20 16:16:09 · 463 阅读 · 1 评论 -
《论文阅读》端到端情感原因对提取的有效子句间建模 ACL 2020
亲身阅读感受分享,细节画图解释,再也不用担心看不懂论文啦~无抄袭,无复制,纯手工敲击键盘~今天为大家带来的是《Effective Inter-Clause Modeling for End-to-End Emotion-Cause Pair Extraction》出版:ACL时间:2020类型:情绪原因对提取关键词:子句间建模;端到端;情绪;原因;作者:Penghui Wei, Jiahao Zhao, Wenji Mao。原创 2024-03-19 16:38:48 · 298 阅读 · 0 评论 -
《论文阅读》e-CARE:探索可解释因果推理的新数据集 ACL2022
今天为大家带来的是《e-CARE: a New Dataset for Exploring Explainable Causal Reasoning》出版:ACL时间:2022类型:因果推理关键词:情绪原因;可解释的因果推理;数据集作者:Li Du, Xiao Ding, Kai Xiong, Ting Liu, and Bing Qin。原创 2024-02-22 20:46:19 · 133 阅读 · 0 评论 -
《实验细节》上手使用PEFT库方法和常见出错问题
2. 使用PEFT的优秀demo。是不是“敲”级简单?3. 下载一些库的必备网站。原创 2023-10-18 11:18:12 · 650 阅读 · 0 评论 -
《基础知识》提示学习的基本知识
提示工程通过设计和构建输入提示来控制大语言模型的输出,从而提高生成文本的准确性和可靠性,为各种应用场景提供更好的效果和体验。因此,提示工程的背景和意义在于优化输入提示,引导大语言模型生成更加准确、可靠、符合预期的输出文本,从而更好地发挥其优势和价值。当使用详细具体的描述让模型执行指令和任务,模型的效果越好,但同时指令受限于输入长度的限制,这意味着在设计指令时需要兼备简洁性和丰富性,看似矛盾的两者,其实才是真正的考验,如下所示,当输出指示符不同时,模型输出的答案不同。问题:需要模型回复的答案。原创 2023-05-17 11:40:05 · 520 阅读 · 0 评论 -
《实验细节》快速制作label对应的one-hot表示
如何快速创建一个batch序列所对应label的one-hot表示获取一个batch中label的种类可能大家还是不太明白,那么我就用一个简单的例子来说明接下来要做的事情!假设有一个5分类问题那么如何得到左侧的one-hot呢?以及如何获取一个batch中所有的label呢?原创 2023-03-04 11:02:23 · 206 阅读 · 0 评论 -
年度征文 | 再见2022,你好2023
论文阅读》:分享阅读论文过程中的心得及主要方法介绍《论文阅读》Supervised Prototypical Contrastive Learning for Emotion Recognition in Conversation《论文复现》:复现论文所实现的效果《论文复现》MOJITALK: Generating Emotional Responses at Scale 部分过程讲解《实验细节》:在复现过程中所面临的技术难点,包括函数讲解,以及对于一些好用的库的介绍《实验细节》获得上三角矩阵做MASK。原创 2023-01-13 10:32:37 · 799 阅读 · 0 评论 -
《论文阅读》Affect-LM: A Neural Language Model for Customizable Affective Text Generation
人类的言语交际包括情感信息,它是通过使用带有情感色彩的词语来传达的。在这方面已经有了很多研究,但如何将最先进的神经语言模型与情感信息相结合仍然是一个有待探索的领域。在本文中,我们将其扩展到LSTM (Long - term - Memory)语言模型,在情感类别为条件的基础上生成会话文本。我们提出的模型,Affect-LM能够让我们通过附加的设计参数来定制生成句子中情感内容的程度。原创 2022-09-12 21:21:12 · 394 阅读 · 1 评论 -
《论文阅读》PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable
预训练模型已被证明对广泛的自然语言处理任务有效。受此启发,我们提出了一种新颖的对话生成预训练框架来支持各种对话,包括闲聊、基于知识的对话和对话式问答。在这个框架中,我们采用灵活的注意力机制来充分利用双向上下文和语言生成的单向特性。我们还引入了离散潜在变量来解决响应生成中固有的一对多映射问题。响应生成和潜在行为识别这两个交互任务在共享网络中同时设计和执行。对三个公开可用的数据集的综合实验验证了所提出框架的有效性和优越性。......原创 2022-08-10 00:04:03 · 542 阅读 · 1 评论 -
《实验细节》MELD文本预处理
MELD数据集源于EmotionLines[10]数据集,后者是一个纯文本的对话数据集,来自于经典电视剧老友记。MELD数据集包含了与EmotionLines相同的对话,并在此基础上包含了视频、音频和文本的多模态数据。数据集总共包含1443段对话,13708句话语,平均每段对话有9.5句话,每句话平均持续时间为3.6秒。对话片段的每句话被标注为七种情绪标签的其中一个,包括生气、厌恶、悲伤、快乐、中性、惊喜和恐惧。与此同时,每句话也拥有相应的情感标签,分为积极、消极和中性。我们希望将数据保存为如下格式。原创 2023-01-13 18:57:10 · 1667 阅读 · 0 评论 -
《论文阅读》Improving Neural Response Diversity with Frequency-Aware Cross-Entropy Loss
序列到序列 (Seq2Seq) 模型在对话响应生成任务中取得了令人鼓舞的表现。然而,现有的基于 Seq2Seq 的响应生成方法存在多样性低的问题:它们经常生成通用性的回复,这使得对话变得不那么有趣。在本文中,我们通过研究它与预测分布中反映的模型过度自信的联系来解决低多样性问题。具体来说,我们首先分析了常用的交叉熵 (CE) 损失函数的影响,发现 CE 损失函数更喜欢高频token,从而导致低多样性响应。原创 2023-01-04 12:29:45 · 434 阅读 · 2 评论 -
《基础知识》梯度更新和防止过拟合
不仅会影响模型收敛的速度还有精度,当模型设置的学习率过大时,会使模型跨越的步长过大,在一些函数中可能会错过最小值,对于下图这种比较好的函数,它的更新可以慢慢震荡,最终找到最小值,但对于其他的函数,可能会一直在最小值附近不断震荡,但是无法到达最小值。如上图所示,左图的分割线非常曲折,可以说明网络的表达能力强,学习到了很多特征,但是这些特征有可能是噪声造成的,所以需要用正则化来使得分割线变得平滑,不去学习一些噪声样本的特征。中,沿着某一方向是稳定的,另一条方向是不稳定的奇点,叫做鞍点。原创 2023-01-02 17:38:49 · 526 阅读 · 0 评论 -
《实验细节》获得上三角矩阵做MASK
在对话生成中往往需要使用遮罩mask,让模型无法作弊,即在做attention时无法抄袭后面的字。那么如何实现呢?大体是这样的!那么如何用代码实现这样的效果呢?原创 2022-12-30 18:41:39 · 322 阅读 · 0 评论 -
《实验细节》位置编码封装代码
【代码】位置编码封装代码。原创 2022-12-30 10:01:10 · 189 阅读 · 0 评论 -
《实验细节》如何使用collate_fn统一一个batch中句子的长度
之前在写代码时总是使用来固定一个batch内最大句子的长度,殊不知这样会使得所有的batch都是同样的长度。那么问题就转化为找到一个合适的长度L方法一:找到所有句子中的最大值,令其为L【太浪费内存】方法二:取所有值的平均值【有时舍弃的部分是关键部分】原创 2022-12-29 17:24:23 · 246 阅读 · 0 评论 -
《实验细节》常见python函数解析
chars – 移除字符串头尾指定的字符序列。常用来去除字符串两边的空格或者一些不需要的字符。chars – 移除字符串头尾指定的字符序列。常用来去除字符串两边的空格或者一些不需要的字符。返回移除字符串头尾指定的字符生成的新字符串。返回移除字符串头尾指定的字符生成的新字符串。......原创 2022-08-31 17:29:23 · 575 阅读 · 0 评论 -
《实验细节》如何从一句话中抽取实体
最近在做一个实验,即构建一个全新的实体库,附上一段代码,方便以后再次利用。原创 2022-11-20 22:06:50 · 360 阅读 · 0 评论 -
《实验细节》binary_cross_entropy
binary_cross_entropy是二分类的交叉熵损失函数,可以用于多标签的二分类问题,如在情感对话分类中,有3个标签,它们各自又可以用0和1来表示是否存在该情感。label1: 高兴 0|1label2: 悲伤 0|1label3: 中性 0|1。原创 2022-11-18 17:00:30 · 274 阅读 · 0 评论 -
关于pytorch在训练模型时常见错误
文章目录关于pytorch在训练模型时常见错误问题1问题2问题3问题4 np转int问题5关于pytorch在训练模型时常见错误问题1【Pytorch】Expected hidden[0] size (2, 32, 256), got [2, 14, 256]错误原因:训练数据不能被批量大小整除造成的。改正方法:修改batchsize,让数据集大小能整除batchsize如果使用Dataloader,设置一个参数drop_last=True,会自动舍弃最后不足batchsize的bat原创 2022-04-02 22:45:43 · 2076 阅读 · 0 评论 -
《实验细节》实验中处理DataFrame数据函数
实现的效果图如下所示在对话文本分类任务中,往往数据集中会出现一列emotion。它通常是一个字符串的表示,那么如何将其转化为每一个列代表一类情感标签呢?这就是我们需要思考的问题了,下面记录一下自己是如何解决的。原创 2022-11-07 17:28:47 · 739 阅读 · 0 评论 -
《论文阅读》ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
视觉和语言预训练(VLP)提高了各种视觉和语言联合下游任务的性能。目前的VLP方法在很大程度上依赖于图像特征提取过程,其中大部分涉及区域超视距(如目标检测)和卷积结构(如ResNet)。但我们发现它在以下两个方面存在问题:(1)效率/速度,简单地提取输入特征需要比多模态交互步骤多得多的计算;(2)表达能力,因为它是上界嵌入到和其表达能力预定义的视觉词库。原创 2022-11-01 12:01:44 · 405 阅读 · 3 评论 -
Transformer代码实现中所用到的函数详解
Transformer代码实现过程中遇到的一些函数nn.Dropout()torch.eq()torch.triu()torch.where()arr[:, None, None, :]nn.Dropout()作用:随机让一部分神经元停止工作,即不更新权值import torchimport torch.nn as nninputData = torch.randn(5,5)dropout1 = nn.Dropout(0.5)dropout2 = nn.Dropout(0.1)print(原创 2022-01-04 21:36:13 · 1256 阅读 · 0 评论 -
transformer翻译代码
'''Description: transformer[Attention机制]Autor: 365JHWZGoDate: 2022-01-04 16:16:41LastEditors: 365JHWZGoLastEditTime: 2022-01-04 21:56:26'''import torch.nn as nnfrom torch.nn.functional import cross_entropy, softmax, reluimport numpy as npimport t原创 2022-01-04 22:01:41 · 676 阅读 · 0 评论 -
transformer学习之Layer Normalization
文章目录题目简介Normalization分类作用Batch Normalization含义公式大致过程缺点Layer Normalization公式优点题目transformer学习之Layer Normalization简介Normalization字面翻译 —> 标准化分类Normalization{(1){BatchNormLayerNorm对第L层每个神经元的激活值或者说对于第L+1层网络神经元的输入值进行Normalization操作(2){WeightNorm对神经网络中连原创 2021-12-31 22:43:06 · 1818 阅读 · 0 评论 -
transformer学习之多头注意力机制
文章目录题目注意力机制多头注意力机制为什么要使用多头注意力机制题目transformer学习之多头注意力机制注意力机制详细了解 ➡️ 注意力机制之前我们也学习过了Seq2Seq,知道了把注意力机制加入到它后会使模型学习的更有效率,那么现在到了全部都由注意力机制构成的Transformer,它和Seq2Seq中加入的注意力有什么不同呢?不同点Seq2Seq里的AttentionTransformers(Q,K)=QTKs(Q,K)=Q^TKs(Q,K)=QTKs(Q,K)=原创 2021-12-30 23:54:56 · 11941 阅读 · 0 评论 -
transformer学习之残差网络
文章目录题目残差题目transformer学习之残差残差原创 2021-12-31 20:31:10 · 1695 阅读 · 0 评论 -
transformer学习之位置编码
参考原文➡️Transformer Architecture: The Positional Encoding文章目录题目位置编码(POSITIONAL ENCODING)简介顺序的重要性为什么transformer要引入它是什么怎么实现题目位置编码(POSITIONAL ENCODING)简介顺序的重要性一个缺少顺序的句子是没有灵魂的,就好比一个人说话前言不搭后语,让人完全摸不着头脑。语言就是在规范着人们说话的方式,它是一种人与人最直接最快速交流的方式,所以要想使得别人能够听懂你说的话,一定要原创 2021-12-30 22:49:50 · 1970 阅读 · 0 评论 -
transformer学习之Mask
文章目录题目mask作用mask处理非定长问题mask防止模型在预测时提前知道未来的信息具体实现过程参考见 ➡️ NLP 中的Mask全解题目transformer学习之Maskmask作用直译:面具在Transformer中mask的作用有两个:处理输入中序列长度不等的问题防止模型在预测时提前知道未来的信息mask处理非定长问题在NLP领域中,一篇文章往往是由短则几百长则几万个句子构成的,每一个句子的长度不尽相同,所以在处理的时候会显得格外麻烦,因为在模型训练时需要将这些单词进行预原创 2022-01-01 22:57:47 · 2085 阅读 · 0 评论 -
Transformer详细解读
文章目录题目位置编码多头注意力机制残差Batch Normal和Layer NormalMask Decoder题目transformer详细解读位置编码Transformer学习之位置编码多头注意力机制残差Batch Normal和Layer NormalMask Decoder原创 2022-01-01 22:58:54 · 1189 阅读 · 0 评论 -
一文搞懂KL散度+信息熵
文章目录KL散度含义计算公式举例结论KL散度含义相对熵,又被称为Kullback-Leibler散度(Kullback-Leibler divergence)或信息散度(information divergence),是两个概率分布间差异的非对称性度量。计算公式设P(x)、Q(x)P(x)、Q(x)P(x)、Q(x) 是离散随机变量XXX的两个概率分布,则PPP 对QQQ的KL散度可以表示为:KL(P∥Q)=∑x∈XP(x)logP(x)Q(x)=∑x∈XP(x)∗[logP(x)−logQ(x原创 2022-04-15 18:06:29 · 542 阅读 · 0 评论 -
损失函数MSELoss和CELoss
损失函数文章目录损失函数含义:标准:常用的两种损失函数均方误差损失函数(MSE)【Mean Square Error Loss】交叉熵损失函数(CS)【Cross Entropy Loss】均方误差损失函数计算公式含义解释代码实现适用范围交叉熵损失函数计算公式含义解释代码实现适用范围含义:用于衡量在训练集上模型的输出与真实输出的差异标准:损失函数越小,模型输出与真实输出越相似,模型效果越好常用的两种损失函数均方误差损失函数(MSE)【Mean Square Error Loss】交叉原创 2022-03-27 14:12:21 · 5075 阅读 · 0 评论 -
NLLLoss详解
文章目录题目前言NLLLoss中文函数参数详解函数输入输出代码与CE_Loss的区别和联系题目NLLLoss+SoftMax=CE_Loss前言差不多好几天没有更新了,唉,最近有点忙,请见谅!今天终于忙里偷闲看了B站视频发现NLLLoss+SoftMax=CE_Loss,哈哈,又长见识了,那么今天来深入了解一下吧!NLLLoss中文负对数似然损失函数torch.nn.NLLLoss( weight=None, size_average=None, ignore_index=- 1原创 2022-04-22 12:43:06 · 6485 阅读 · 1 评论 -
《论文阅读》SalesBot: Transitioning from Chit-Chat to Task-Oriented Dialogues
对话系统通常分为两种类型,开放域和面向任务。第一个专注于与用户聊天,让他们参与到对话中来,选择合适的话题来适合对话环境是成功对话的关键。另一个则专注于一个具体的任务,而不是随意的谈话,例如,在周五晚上找一场电影,放一首歌。由于这两个方向的目的不同,因此分别进行了研究。然而,如何顺利地从社交聊天过渡到面向任务的对话对于触发商业机会是很重要的,目前还没有任何公共数据关注这类场景。因此,本文重点研究了从开放域社交聊天开始,逐渐过渡到面向任务的会话,并发布了一个大型数据集,并附有详细的注释,以鼓励这一研究方向。原创 2022-10-28 16:23:04 · 564 阅读 · 0 评论 -
《论文阅读》Deep Knowledge Tracing
在计算机支持的教育中,知识跟踪——即在学生与课程交互时,机器对学生的知识进行建模——是一个很好的问题。虽然对学生的知识进行有效的建模会有很高的教育影响,但这项任务有许多固有的挑战。在这篇论文中,我们探索了使用循环神经网络(RNNs)来模拟学生学习的效用。与以往的方法相比,RNN模型家族具有重要的优势,它们不需要对人类领域知识进行显式编码,可以捕获更复杂的学生知识表示。使用神经网络在一系列知识追踪数据集上的预测性能有了实质性的提高。此外,学习模型可以用于智能课程设计,并允许学生在任务中直接解释和发现结构。原创 2022-10-26 19:06:10 · 579 阅读 · 0 评论 -
《评测指标》如何快速识别TP/FN/FP/TN
今天在学习多分类任务中的被混淆矩阵给混淆了,二分类还好,知道TP/FN/FP/TN怎么来的,结果到了多分类任务上就傻眼了,这里的名称真的是太绕了。。。原创 2022-10-25 22:15:33 · 456 阅读 · 2 评论 -
《论文阅读》Controllable Abstractive Dialogue Summarization with Sketch Supervision
简介创新点细节期刊:ACL时间:2021类型:开放域对话摘要特点:抽取用户意图+摘要草稿作为辅助要素作者:Chien-Sheng Wu, Linqing Liu, Wenhao Liu, Pontus Stenetorp, Caiming Xiong机构:Salesforce Research University College London在本文中,我们旨在提高抽象对话摘要的质量,同时实现粒度控制。原创 2022-10-20 16:14:31 · 408 阅读 · 1 评论 -
《Kaggle》Tweet Sentiment Extraction 实战(一)构建数据加载器
在上一步完成了数据分析之后,我们大致知道了该比赛的数据结构大致的情况,现在我们就将进一步进行分析,看如何将这些数据集变为我们可以训练的数据,即如何更改数据格式使其可以达到任务目标的格式。原创 2022-10-03 20:29:12 · 848 阅读 · 0 评论 -
《实验细节》Sklearn 函数学习
这里的split(x,y)函数需要满足一定的shape。是先打乱顺序,再随机进行划分的。将数据集分为训练集和测试集。画出图来就是下面这个样子。和交叉熵的那个形状类似。原创 2022-10-02 17:01:14 · 591 阅读 · 0 评论
分享