![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 88
Flying_sfeng
这个作者很懒,什么都没留下…
展开
-
REAL2-融合检索和生成的端到端数学应用题自动解题
本篇文章主要讲解本人在今年 NIPS2021 Workshop MATHAI4ED发表的一篇关于应用题自动解题的论文(打开超链接可以看到REAL2模型的Paper,Poster, Video等信息)。 同时本篇文章也是REAL模型的改进,因此阅读本篇文章之前,建议先阅读REAL模型:REAL4MWP-基于记忆增强的应用题自动解题方法。 论文题目为:REAL2: An End-to-end Memory-augmented Solverfor Math Word Problems 代码已开源原创 2022-01-10 19:54:44 · 900 阅读 · 2 评论 -
REAL4MWP-基于记忆增强的应用题自动解题方法
本篇文章主要讲解本人在今年EMNLP2021发表的一篇关于应用题自动解题的论文。论文题目为:Recall and Learn: A Memory-augmented Solver for Math Word Problems代码已开源,欢迎star:REAL4MWP另外,本人还搜集了近五年来所有关于应用题解题的论文,供研究该方向的学者参考:Math-Word-Problems-PaperList1. 背景介绍 数学应用题自动解题任务是指通过给定的应用题题目,设定特定的技术方案得到对应的答案。直接原创 2021-12-23 19:29:06 · 1592 阅读 · 1 评论 -
2021科大讯飞试题标签预测挑战赛亚军方案总结
1. 摘要 这个比赛的任务是根据题目的文本内容,预测题目的知识点及难度标签,其中知识点包括五个类型,我们需要预测出对应类型的知识点标签。 在本次比赛中,我们构造了六个独立的模型,模型结构相似,每个模型负责预测不同的目标。我们将题目类型,内容,分析,选项等信息进行拼接后作为输入,模型部分我们使用roberta[3]作为baseline模型,同时使用对抗训练的方法提高模型的鲁棒性。为了解决数据存在不平衡及多个类别样本量太少的问题,我们使用了EDA, AEDA等多种数据增强方法。同时,我们通过知识点近邻匹原创 2021-12-13 18:22:36 · 2666 阅读 · 3 评论 -
文本数据增强方法总结
我们知道,在NLP领域,特别是工业界中,标签数据是很难获得的,很多时候会面临数据量太小的问题,这个时候,文本数据增强可以有效地帮我们缓解这个问题。我本人在今年的科大讯飞AI大赛中也使用了下文提到的一些方法,并提升了5个百分点左右(后续的文章会详细介绍,请持续关注…),可以说效果是相当明显,所以说数据增强方法绝对是值得大家花点时间学习的。本篇文章,我们将介绍常用的文本数据增强方法,并提供相应的参考文献以及使用案例。Easy Data Augmentation(EDA)EDA是一种简单但非常有效的方法,具原创 2021-12-04 12:14:13 · 5934 阅读 · 0 评论 -
RAKE-无监督英文关键词提取算法
没想到吧,在深度学习大行其道的当今,我突然写了一篇上古时代的文章(其实也就2010年,奈何知识更新真快…)话不多说,一起来看一下RAKE算法RAKERAKE全称为Rapid Automatic Keyword Extraction,突出两个亮点:1. 快速,线上部署非常友好;2. 无监督,也即不需要大量有标签数据,0成本~提取候选词首先,使用停用词进行候选关键词的提取和切分,这里的停用词表非常关键,决定你候选词组切分的效果,候选词组切分不好,最终提取到的效果也会受影响。候选词提取方法其实很简单:原创 2021-11-16 21:11:37 · 2048 阅读 · 0 评论 -
文本生成系列(三)beam search的一些改进
引言我们知道,在文本生成领域,所用到的解码方法有两种:greedy search和beam search。greedy search相当于在每一步的生成过程中,都选择概率最大的token作为候选token,而beam search则是每一步都选择topk个token作为候选token,然后使用这k个token对应的句子进行下一个词的预测,总共有k*V个结果,再取topk个token,以此迭代直到出现结束符。beam search相当于在greedy search的基础上进行了优化,扩大了搜索空间,但原创 2021-05-10 20:58:51 · 1625 阅读 · 0 评论 -
Batch Normalization与Layer Normalization
batch normalization和layer normalization,顾名思义其实也就是对数据做归一化处理——也就是对数据以某个维度做0均值1方差的处理。 所不同的是,BN是在batch size维度针对数据的各个特征进行归一化处理;LN是针对单个样本在特征维度进行归一化处理。在机器学习和深度学习中,有一个共识:独立同分布的数据可以简化模型的训练以及提升模型的预测能力——这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。BN算法公式的后面还有一个反向操作, 将 normal原创 2021-05-08 20:00:06 · 1116 阅读 · 0 评论 -
文本生成系列(二)Pointer Generator Network
最近项目中要用到copy机制,尝试了《文本生成系列(一)seq2seq中的copy机制》中的方法,发现处理OOV字符这一块处理起来不是很方便(可以实现),相对来说,Pointer Generator Network更简洁一些。Pointer Generator Network的动机有两个:1. 处理OOV问题;2. 解决生成模型重复生成的问题。1. Sequence-to-sequence attentional model正常的soft attention对应着公式看更香:2. Pointe原创 2021-03-30 20:42:21 · 826 阅读 · 0 评论 -
文本生成系列(一)seq2seq中的copy机制
本文记录seq2seq中一种广泛应用的方法:copy机制。Incorporating Copying Mechanism in Sequence-to-Sequence Learningpaper code上图左边为seq2seq模型中的encode-decode框架,右边为左边小框框的放大图,也是copynet相对传统网络的改进。所谓copynet,就是模型输入中的字符可以被复制到解码输出中,这可以一定程度上缓解OOV问题,另一方面也可以强化输入输出之间的关联,这在复述、对话等任务中是有很大帮助原创 2020-12-20 18:56:04 · 2614 阅读 · 3 评论 -
transformer中的positional encoding(位置编码)
transformer模型是当前大红大热的语言模型,今天要讲解的是transformer中的positional encoding(位置编码).我们知道,transformer模型的attention机制并没有包含位置信息,即一句话中词语在不同的位置时在transformer中是没有区别的,这当然是不符合实际的。因此,在transformer中引入位置信息相比CNN, RNN等模型有更加重要的作...原创 2019-09-18 20:57:39 · 39222 阅读 · 5 评论 -
word2vec原理剖析
本文根据word2vec 中的数学原理详解整理而成。 根据word2vec算法的原理,大概总结如下; 1) 由统计语言模型发展到n-gram模型,再由n-gram模型发展到NNLM模型,最后到word2vec模型; 2) word2vec模型包括CBOW模型和Skip-gram模型; 3) 对于CBOW模型和Skip-gram模型,又分别有基于Hierarchical S...原创 2018-06-28 16:13:11 · 1107 阅读 · 0 评论