截至到现在,神经网络本质上仍然是有监督方法,且需要较大规模的有标注训练数据。尽管预训练词向量的使用为半监督学习提供了便利的平台,但是在如何有效利用未标注数据并减少对于有标注样本的依赖问题上,我们仍然处于非常初级的阶段。请记住,人类通常可以从少数样本中进行泛化,而神经网络往往需要至少数百个标注样本才能表现得不错—即使在最简单得语言任务中。寻找有效的方式来同时利用少量的标注数据和大量未标注数据,以及跨领域的泛化,很可能将导致NLP领域的下一次变革。
最后,语言并不是一个孤立的现象。当人们学习、感知并生成语言时,他们是以现实世界作为参考,且语言表达更多的时候是基于现实世界中的实体或者经验的。在接地(grounded)的环境下进行语言学习,或结合其他模态数据如图像、视频或者机器人动作控制,或作为与环境进行交互以达到某个具体目标的智能体的一部分,是另一个很好的研究前沿。
展望
最新推荐文章于 2019-06-20 17:44:00 发布