自然语言分析论文阅读

阅读论文有感(一)

刚开始接触论文是一件非常枯燥的事,只有慢慢的深入了解,才能知道那些大牛们的厉害之处,确实不由得让人佩服,同时也值得我去学习。

第一篇
Multitask Learning for Class-Imbalanced Discourse Classifification (多任务学习在类不平衡语篇分类中的应用)
它的作者:亚历山大·斯潘格,乔纳森·梅,沈士荣,邓灵佳
作者的单位:南加州大学(spangher, jonmay) ,彭博(美国财经资讯公司)。

这篇论文的主要是多标签分类任务的讲,然后制作一定的神经结构模型,来帮助多任务学习,作者的目的就是最小化损失之和的任务,同时为了确定是多任务设置中的标签信息帮助作者实现更高的准确性,还是仅仅是添加了更多的新闻文章,执行了一个数据消融:
使用不包含新标签信息的额外数据进行测试。使用训练数据增强(TDA)来增强单任务学习,通过对训练数据进行数据增强来增加训练数据集的大小(DeVries和Taylor, 2017)。为VD1中的每个句子生成10个扩充。他们的增广函数g是一个基于采样的反平移函数,这是数据增广的常用方法,为了进行反翻译,作者使用Fairseq的英语到德语和英语到俄罗斯模型。同时作者受到前人的启发,作者使用带有可调温度参数的随机抽样来生成反向翻译,而不是束搜索,以确保增强句子的多样性,然后作者使用transformer模型RoBERTa-base (Liu et al., 2019)来生成句子嵌入:将文档中的每个句子顺序输入到同一个模型中,使用每个句子的
在这里插入图片描述
令牌作为句子级嵌入。然后,句子嵌入序列被输入到一个双lstm层,以提供上下文化。每一层都在任务之间共享,作者将不同的嵌入,嵌入到作者的句子层次,以整合文档主题和句子位置信息:

然后作者的模型也不是完美的,他仍然还有这一定的问题,还有待去提高他的模型,最后作者给出了他的多任务实验的结果
VD1中各个类标签的f1 -分数以及宏观平均f1 -分数(Mac.)和微观f1 -分数(Mic.)。ELMo是在(Choubey et al., 2020)中使用的基线。RoBERTa+Frozen+EmbAug是作者随后的基线。TDA是指训练数据的增强。MT代表multitask: MT- mac是选择α使宏观f1得分最大化的试验,而MT- mic是选择α使微观f1得分最大化的试验然后进行数据增强实验,
VD1头和argument预测的标签,VD3和VD2头之间的Spearman相关性。请注意,这两个Van Dijk数据集在它们共有的大多数标签之间具有高度相关性VD1头、RST头预测的标签与ptb -t头预测的标签之间的Spearman相关性,对VD1的评价拆分。请注意,ptb -t关系往往是基于时间的,与结果和历史事件标签有正相关,它们都是在与主事件标签的时间关系中定义的作者的多任务处理模型还是很好的,它能够很好的处理相关的一些问题,对于文本分析这块有着很大的帮助,当处理较多数据集的时候。
对于它的应用范围,我觉得可以很好地运用在翻译的应用上面,这样可以对于外交以及对于翻译软件上都是很大的帮助,或者翻译外文书籍都是可以的,进行多国语言的交互。

第二篇
Large-scale, Language-agnostic Discourse Classifification of Tweets During COVID-19 (新冠疫情期间推文的大规模、语言不可知的话语分类)
作者:
Oguzhan Gencoglu
作者单位:
Faculty of Medicine and Health Technology, Tampere University
Tampere, Finland (芬兰坦佩雷大学医学和保健技术学院)

论文链接
这是一篇论文,还未公开代码,先存放在 arXiv.org 这个网站上,这个网站可以找到大部分的论文,对于一些需要付费的论文,在这里或许能够白嫖,是一个很棒的网站。

在这篇论文里,我首先接触到了一个非常火的模型,Bert模型,这是由谷歌团队开发的一个模型
这里有一篇别人的文章,简单了解一下Bert模型

https://www.jianshu.com/p/4dbdb5ab959b?from=singlemessage

这篇文章针对新冠病毒期间的语篇分析,作者他们提出了一种利用BERT神经体系结构(sentence-BERT)学习上下文句子嵌入的机制,实现了大规模的语义相似,用开箱即用的向量表示进行比较、聚类和信息检索。

作者的想法就是利用数字表示,它们应该以这样一种方式对tweet的语义进行编码,这样简单的向量操作就足以进行大规模检索甚至分类。

同时为了能够利用多语言BERT编码器来提取开箱即用的句子嵌入,作者采用了语言不可知的BERT句子嵌入。LaBSE嵌入将基于bert的双编码器框架与掩蔽语言建模(一种无监督的填空任务,其中模型试图预测一个掩蔽词)结合在一起,在跨109种语言嵌入句子方面达到了最先进的性能。
在60亿个翻译对的语料库上训练,LaBSE嵌入提供了开箱即用的句子比较能力,即使是通过一个简单的点积(本质上对应于余弦相似性,因为嵌入是l2归一化的)。
作者使用这种深度学习方法对训练数据和2680万条推文进行编码,最终得到长度为768的向量用于每次观察。

然后写了BERT和LaBSE嵌入的所有分类器(其表现最好的超参数集)在10倍范围内的平均精度(%)和F1分数(微观和宏观平均值)。混淆矩阵的最佳表现的表示分类器也被报告。

跨交叉验证折线的SVM分类器预测的归一化混淆矩阵通过监督方式对2600多万条推文进行分类,使用机器学习将文本分类为语义类别,对于当中的数据集有着,109种语言,使用了最先进的多语言句子嵌入来表示微博,分类好后进行推理
然后作者给出三种分类器的交叉验证结果
BERT和LaBSE嵌入的三种分类器的交叉验证结果
这篇文章并没有在论文中进行详细说明,可能还不是那么成熟,在这篇论文里讲的就比较少。

第三篇
Deep Pyramid Convolutional Neural Networks for Text Categorization (用于文本分类的深度金字塔卷积神经网络)
作者:
Rie Johnson 、Tong Zhang
作者单位:
RJ Research Consulting Tarrytown, NY, USA、Tencent AI Lab
Shenzhen, China

对于这篇论文是有代码的,类似于论文这种东西,最好是能够找到相应的代码,并将它复现,这个过程是非常艰难但是成功后是非常有趣的,很值得我们尝试,可以帮助我们,善于发现问题,找到问题,解决问题,以及对于代码的理解也会更加深厚,在今后对于类似项目的改善或者开发都是非常好的经历。
代码链接
论文链接
对于本篇论文,作者提出了一种低复杂度的词级深度卷积神经网络(CNN)结构,用于文本分类,能够有效地表示文本中的远程关联。最近的研究表明,即使在大的训练数据背景下,浅层词级cnn也比最先进的非常深的网络(如字符级cnn)更准确和更快。
作者仔细研究了大数据背景下词级cnn的深化,发现了一种深度较深但复杂度较低的网络结构,通过增加深度而不是增加计算时间的顺序可以获得最佳的精度,总计算时间受一个常数的限制。作者称其为深度金字塔CNN (DPCNN),因为每层的计算时间在金字塔形状中呈指数递减。在将离散文本转换为连续表示之后,DPCNN体系结构简单地交替使用一个卷积块和一个下采样层,导致内部数据大小(以及每层计算)以金字塔形状缩小的深度网络。
作者的模型是单词级别的,因此使用了字符级别模型无法访问的单词边界知识。
对于这篇论文,作者主要是提供了一种新的模型(DPCNN)
DPCNN
在网络体系结构中作者的思路是固定了特征图的数量,因为作者发现增加特征图的数量只会大大增加计算时间,而不会提高精度,正因为如此,作者才这般做。
作者还通过不让任何快捷方式跳过下采样层,以及通过固定整个网络的特征映射数量,同时作者消除了维度匹配的复杂性。后者也大大节省了上面提到的计算时间,将在后面的实验中表明,在作者的任务中,不需要牺牲任何东西来获得这么大的效率。
作者给出了一些实证结果来验证设计选择。为此,使用较大的五个数据集来避免训练数据的不足。下图是***不同深度(3,7,15)的dpcnn错误率。x轴是计算时间。没有无监督嵌入***

不同深度(3,7,15)的dpcnn错误率。x轴是计算时间。没有无监督嵌入为了研究无监督嵌入的有效性,作者实验了不同的DPCNN,只在是否使用和如何使用无监督嵌入上有所不同,如下图。
使用无监督嵌入时DPCNN变体的错误率(%)

这就是这几篇论文的大概内容,阅读论文的路程还是很艰辛的,不过,只要静下心来,慢慢的研究,不断地查找资料,就一定会有所收获。别人都是这么过来的,从无到有,慢慢来,加油。。。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值