【一分钟论文】轻松解读Semi-supervised Sequence Learning半监督序列学习

点击上方,选择星标置顶,每天给你送干货

阅读大概需要1分钟

跟随小博主,每天进步一丢丢

一个月前和实验室的伙伴们打了一个跨领域半监督依存句法分析的比赛,比赛成绩出乎意料,在封闭测试下是第一名。这也是我第一次接触半监督学习。最近师兄在写这个评测论文,我也在帮忙准备下实验数据。昨天师兄发现了一个极其简单的半监督方法论文,挺后悔这么简单当初没用上。今天就来说说这个很简单的论文。

给还不了解的小伙伴普及下半监督和无监督哈:

半监督semi-supervised

半监督学习(Semi-Supervised Learning,SSL)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。半监督学习使用大量的未标记数据,以及同时使用标记数据,来进行模式识别工作。当使用半监督学习时,将会要求尽量少的人员来从事工作,同时,又能够带来比较高的准确性,因此,半监督学习目前正越来越受到人们的重视。

无监督学习un-supervised

现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

-来自百度百科

一句话解释就是:

有监督是所有的训练文本为人工标记的;

半监督是一部分是有标记的,剩下的为无标记的(一般无标记>>有标记);

无监督就是全部都是无标记的。

简单了解后,开始正事。

论文解析

地址:

https://arxiv.org/pdf/1511.01432.pdf

这篇文章主要讲的就是如何使用无标注数据来辅助有标注的更好的训练。这里提出了2个方法,用无标签数据进行无监督训练的参数来初始化有监督学习的模型

  • 一种是用seq2seq自编码模型(sequence autoencoder, SA-LSTM),encoder输入为这个WXYZ,decoder输出为依然为WXYZ,和普通的seq2seq模型相比不同的是,这里的encoder和decoder隐层是共享的。

  • 另一种是用最基础的语言模型(language models, LM-LSTM),输入上一个词预测下一个词,就相当于上面的没有encoder一样。大概长这个样子:

用无标注数据训练完后,用此时的LSTM内部权重来初始化一会将要进行有标注数据的有监督学习LSTM模型即可。

作者在情感分析、文本分类、目标分类等多组任务中进行了对比实验,均取得了不错的结果。

有什么好处呢?

文章中说,这样的好处是网络在还没有有监督训练的时候,就已经学到了文本的内部信息,也就是提前让循环神经网络学会句子的表达,再之后根据标签去学习分类的能力。这样会使得最终训练的梯度更好,不会出现提出骤变的现象。

和word2vec初始化相比呢?

这个文中也做了实验:

这两种方法初始化,都比word2vec好了不少。


这个模型用的都是论文用的都是LSTM。因为是2015年的一篇经典论文,所以当时LSTM都是很火的。现在我觉得bert什么的或许可以采用相同的方法,进行预训练。这里只是提供一个思想而已。

当然还有别的实验分析,但是这里就不分析了,论文中的实验分析很多都是自己在一堆数据中找出来特别具有代表性的数据来展示给你看的。所以这里主要还是看大概思想和思路,在自己以后碰到这个无监督问题是能够猛然想到:

欧,我好像在某个小博主写的【一分钟论文】中的一个paper可以解决这个问题就行啦。

以后我会坚持将这个【一分钟论文】专栏坚持写下去!

写作不易,还望给个好看!

今天留言内容为:

【day n】今天我学到了什么或者今天打算学什么。

(至少10个字,越详细越好)

督促自己,每天进步一丢丢!

推荐阅读:

一大批历史精彩文章啦

详解Transition-based Dependency parser基于转移的依存句法解析器

干货 | 找工作的经验总结(一)

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的?

是时候研读一波导师的论文--一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Temporal Ensembling是一种半监督学习方法,它使用了时间上的一致性来提高模型的性能。该方法通过对未标记数据进行预测,并将预测结果与之前的预测结果进行平均,从而获得更加稳定和准确的预测结果。同时,该方法还使用了一个噪声注入技术来增加模型的鲁棒性。该方法已经在图像分类、语音识别等领域取得了很好的效果。 ### 回答2: Temporal Ensembling是一种半监督学习方法。它主要通过使用同一批数据的多个副本,在单批数据上进行迭代学习来提高预测模型的准确性。这种方法能够很好地利用已有数据中的潜在信息,同时也能避免因缺乏大量标注数据而损失准确性的问题。 Temporal Ensembling的核心思想是使用模型的历史预测结果来生成新的虚拟标签。在训练期间,模型不断地更新,同时不断生成新的“标注”,并将这些新的“标注”与原始标注数据一起训练。这样,模型可以从大量带有“标注”的数据中学习并逐渐提高其准确性。 Temporal Ensembling方法在许多学习任务中都展现出优良的性能,比如图像分类、物体识别、图像分割、语音识别等。其中,与其他半监督学习方法相比,Temporal Ensembling在半监督图像分类中的性能最为出色。 尽管Temporal Ensembling的性能非常出色,但是其中的一些问题仍需要解决。 首先,这种方法需要大量的GPU计算力和存储空间,并且需要复杂的算法设计。其次,由于该方法是基于生成虚拟标签的,因此,如果模型在未来预测错误而不正确地生成了虚拟标签,那么可能会产生负面影响。 总之,Temporal Ensembling是一种有效的半监督学习方法,其取得的结果显示出高水平的准确性。与其他方法相比,Temporal Ensembling具有更好的稳健性及效能。也因此,它在深度学习领域中被广泛应用。 ### 回答3: Temporal Ensembling是一种半监督学习技术,可以用于训练深度神经网络。该技术旨在利用未标记的数据来改善模型的泛化能力。在传统的监督学习中,我们需要分类器预测每个样本的标签,并将其与真实标签进行比较以计算损失函数。然而,在许多现实世界的场景中,标记数据的数量通常是有限的,这使得监督学习变得更加困难和昂贵。相反,在半监督学习中,我们将未标记的数据与标记数据结合在一起进行训练。 Temporal Ensembling的实现是基于一个假设,即相似的输入应该具有相似的潜在表示形式。具体来说,该技术通过在连续训练周期中收集了单次训练中的模型预测,通过将这些预测结果整合成一个移动平均版本来构建模型共识。这可以看作是把模型的预测提供给下一个周期的训练,让模型逐渐整合起来,在连续的训练周期中收集了对训练数据更准确的表示。在训练过程中,我们不仅使用真实标签来计算损失函数,还将平均预测意味着的交叉熵添加到损失函数中。这使得模型学习时能够尽可能地匹配模型共识中的数据。 虽然在许多情况下,半监督学习可以增加模型学习任务的效果,但它依赖于许多因素,包括未标记样本的数量、分布和标记样本之间的相似性。使用Temporal Ensembling时,需要做好降噪处理,适当选择数据能够真正提高该技术效果。此外,需要注意的是,Temporal Ensembling只能在没有过度拟合数据集时才能有效,因为此技术基于模型共识构建。在实际应用中,可以将Temporal Ensembling与其他半监督学习技术结合使用,以提高模型性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值