“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
作者:知乎—杨帆地址:https://www.zhihu.com/people/yang-fan-27-12
深度学习的成功一半要归功于模型和计算力,另一半则要归功于数据。在深度学习的很多领域,监督学习已经取得了很好的成果。当然,前提是需要有大量且高质量的标注数据集,通常没有标注的数据集是很多且容易获得的,在深度学习初始阶段,为了解决这个问题,很多公司雇佣廉价劳动力来做数据标注,费时费力还不讨好,当手上有部分标注好的数据集大量未标注数据的时候,如何彻底利用这些数据来建立一个泛化性能能够比肩拥有大量标注数据集的监督学习模型是一个值得深入研究的问题。
01
背景 在NLP分类任务中同样存在标注数据少的问题,现有的半监督学习:(1)利用VAEs(variational auto encoders )变分自编码重构句子,通过学习重构句子的隐藏变量预测句子的标签(2)通过self-training使模型对无标签的数据输出预测的置信度再加入到训练集去训练模型(3)使用添加扰动(对抗训练)或者数据增强的形式进行训练(4)使用无标签数据训练再用有标签数据微调。上述提及到的方法没有同时使用有标签和无标签数据,在训练过程中可能会过拟合有标签的数据,造成模型泛化性能的降低。Mixtext要做的就是在训练过程中同时利用有标签数据和无标签数据来生成新样本,以增强模型的泛化性能。02
亮点 1. 隐空间向量插值![63bb68fe133347c1f9a2f8d0c4639115.png](https://i-blog.csdnimg.cn/blog_migrate/8c7c49d645a742d529ce0b887fcc6cec.jpeg)
![2e3bc1a0b3e4b04bb73cc97febe60282.png](https://i-blog.csdnimg.cn/blog_migrate/f15354ac5d979e41ac16a33942e7249e.jpeg)
03
实验结果![34a3ac3b9d070fcd7eae13e3912860d2.png](https://i-blog.csdnimg.cn/blog_migrate/bd54782176366ebd2a7589e70e07ad44.jpeg)
![ffa286d3b0202a6ecc2613184da2944d.png](https://i-blog.csdnimg.cn/blog_migrate/01f99c6b842c5737c2a75d5c906a9b24.jpeg)
![941b1dacc2fc9c303845f43d6511b96c.png](https://i-blog.csdnimg.cn/blog_migrate/87026d1272959602a667490f576f8613.jpeg)
04
个人实验和思考 显然mixtext是一个很有趣的研究,隐空间插值这个很容易想到,但是能做出这么多花样,作者还是下了不少功夫的。我在看到这篇论文以后也是很兴奋的跑到中文数据集上去做测试,结果并没有我想的那么美好。 (1)我在测试时,没有对无标签数据集数据增强,因为google翻译的api实在是太拉垮了。后来查阅了相关文献发现,上面提到的一致性损失对半监督学习十分重要,对无标签数据,希望微小扰动下数据输出基本没有变化,在mixtext中这种微小扰动表现在回译法引起的输入扰动和无标签数据的插值增强的扰动,因此数据增强是体现一致性损失的重要环节。 (2)测试了05
可能的改进方向 (1)采用小的本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
“她”教你从失败中学习
丢弃Transformer,FCN也可以实现E2E检测
目标检测新范式!港大同济伯克利提出Sparse R-CNN
Meta Transfer Learning for Few Shot Learning
浅谈多任务与联邦学习
Stacked Capsule AutoEncoder-堆叠的胶囊自编码器
针对强化学习中策略迁移的选择性探索算法
详解Transformer (Attention Is All You Need)
浅谈图上的自监督学习——对比学习
想为特征交互走一条新的路
Grad-CAM论文总结
CNN中编码了多少位置信息?
ICLR 2020 所有RL papers全扫荡
NeurIPS 2020 | Glance and Focus: 通用、高效的神经网络自适应推理框架
经典重温:CVPR 2010 "What is an object?"
更多源头活水专栏文章,
请点击文章底部“阅读原文”查看
![653746d09b625f230b2e1fc4c02a6516.png](https://i-blog.csdnimg.cn/blog_migrate/d154af0b04163be133fdf2b75d29cde9.png)
![0dc230c525cf51c3c753c724119a0b70.gif](https://i-blog.csdnimg.cn/blog_migrate/33a2e13ed6938241ccad7edba9615581.gif)
分享、点赞、在看,给个三连击呗!