导语:自然语言处理被誉为“人工智能皇冠上的明珠”。对语言的理解需要广义的“知识”,即狭义知识,算法和数据的约束。目前的预训练+微调的范式充分利用了数据类“知识”,然而存在预训练任务与目标任务之间的差距较大的问题,为了弥补这种差距,本文提出了“伪数据”方法。本文源于哈工大教授车万翔在智源社区所作报告《自然语言处理中的伪数据》。(报告回放https://event.baai.ac.cn/activities/350)
作者:车万翔博士,哈尔滨工业大学计算学部长聘教授、博士生导师,人工智能研究院副院长,社会计算与信息检索研究中心副主任。教育部青年长江学者,黑龙江省“龙江学者”青年学者,斯坦福大学访问学者。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会(AACL)执委兼秘书长;中国计算机学会高级会员、曾任YOCSEF哈尔滨主席(2016-2017年度)。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文100余篇,其中AAAI 2013年的文章获得了最佳论文提名奖,论文累计被引6,000余次(Google Scholar数据)。
整理:牛梦琳
编辑:李梦佳
01
背景介绍
语言是思维的载体,是人类交流思想,表达情感最自然、最深刻、最方便的工具。《信息简史》中说:“历史和逻辑本身就是文字的产物。”自然语言主要是指人类的语言,而在自然语言处理(Natural Language Processing,NLP)中,自然语言特指文本信号,而非语音信号。自然语言处理主要包括两个方面:一是对文本符号本身的理解,二是自然语言的生成。
自然语言的应用有很多,如机器翻译、智能助手、文本校对、舆情分析、智能教育、信息检索等,可以说,只要涉及到对文本进行处理的任务,都有自然语言处理的用武之地。
自然语言处理本质上属于认知智能任务。众所周知,认知智能是人类与动物对主要区别之一,与许多动物也具有低级的感知智能不同,认知智能需要更强的抽象和推理能力。自然语言处理本身有很多特性,包括歧义性、抽象性、组合性、进化性、非规范性、主观性、知识性、难迁移性等。这些特性提升了自然语言处理的难度,自然语言处理也成为制约人工智能取得更大突破和更广泛应用的瓶颈。包括多位图灵奖得主在内的多位知名科学家都认为自然语言处理是下一个人工智能需要重点攻克的方向。
自然语言处理的核心困难,在于自然语言的形式与语义之间存在多对多的映射。为了解决这个困难,我们通常利用“知识”来进行约束。因此,如何获取和利用“知识”成为了一个关键科学问题。
“知识”