⬆⬆⬆ 点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
“语言是一块琥珀,许多珍贵和绝妙的思想一直安全地保存在里面。”从人类诞生伊始,自然语言就承载着世世代代的智慧,积聚了无穷无尽的知识。这片深蕴宝藏的沃土吸引了众多满怀好奇的AI研究者,投入其中耕耘、开垦、发掘和重构。
2020 年 9 月 25日,由中国科协主办,清华大学计算机科学与技术系、AI TIME 论道承办的《2020 中国科技峰会系列活动青年科学家沙龙——人工智能学术生态与产业创新》上,清华大学副教授刘知远所作的学术报告《知识指导的自然语言处理》,于深度学习时代另辟蹊径,阐释了语言知识和世界知识对于自然语言处理的重要价值。
刘知远,清华大学计算机系副教授、博士生导师。主要研究方向为表示学习、知识图谱和社会计算。2011年获得清华大学博士学位,已在ACL、IJCAI、AAAI等人工智能领域的著名国际期刊和会议发表相关论文60余篇,Google Scholar统计引用超过6000次。曾获清华大学优秀博士学位论文、中国人工智能学会优秀博士学位论文、清华大学优秀博士后、中文信息学会青年创新奖,入选中国科学青年人才托举工程、中国计算机学会青年学者提升计划。担任中文信息学会青年工作委员会执委、副主任,中文信息学会社会媒体处理专委会秘书长,ACL、EMNLP、COLING、IJCNLP领域主席。
一、NLP研究需从语言自身特点出发
自然语言处理(Natural Language Processing, NLP),旨在让计算机掌握和运用人类语言。从词性标注、命名实体识别、指代消解、到语义和句法的依存分析,NLP工作者们致力于从无结构的语音或文字序列中挖掘出结构化信息。恍如从一片混沌中寻找秩序,无论是语义还是句法结构的,都不简单。
语言作为一个符号系统,包含多种不同粒度的语言单元。譬如中文的汉字、词、短语、句子、文档、直到文档互联构成的万维网,由下而上,粒度不断加粗。
而自然语言处理的很多任务,都涉及对不同层级的语言单元的语义相关度计算。例如信息检索就是给定一个query或者短语,找出哪些文档和该短语的语义最相关。由于语言的粒度大小不一,这就给计算增加了复杂度。
幸运的是,我们可以通过深度学习分布式表示,建立多粒度的语言关联。
深度学习是近十年内一场席卷AI界的技术革命,而深度学习在自然语言处理领域获得巨大成功的一个重要原因就是分布式表示。从词汇、词义、短语、实体到文档,深度学习把不同粒度的语言单元映射到统一的低维向量分布式表示空间,实现统一的隐式表示,有助于不同语言单位语义信息的融合与计算。这给NLP任务提供统一的表示基础,避免对不同任务设计不同的相似度计算方法,也能更好地解决大规模长尾分布数据稀疏的问题。
针对深度学习的分布式表示,2015年到2017年刘知远的实验室开展了不少相关工作。具体包括:把汉字和词结合进行统一表示、英文词义和