2022智源大会议程公开 | 预训练之后，哪些NLP问题仍待解决？

智源社区

于 2022-05-23 17:03:35 发布

阅读量400

点赞数

文章标签：人工智能机器学习大数据深度学习自然语言处理

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/124938373

版权

2022年北京智源大会召开在即，5月31日至6月2日，持续三天，26场由各领域领军学者主导的专题论坛。大会将紧紧围绕这些当前学术领域迫切需要解决的问题，以及产业落地过程中存在的诸多挑战，延续一贯以来的“内行认可”品质口碑，分享真正内行认可的重大成果与真知灼见，献上一场诚意满满的AI盛宴！目前已正式开放大会线上报名渠道。大会将同步向全球线上直播。

北京智源大会倒计时：8 天

论坛议程

论坛主席

刘洋，清华大学计算机科学与技术系长聘教授，清华大学智能产业研究院副院长，国家杰出青年基金获得者

担任中国人工智能学会组织工作委员会副秘书长、中国中文信息学会常务理事。研究方向是自然语言处理，获得国家科技进步二等奖1项、省部级与一级学会科技奖励5项、重要国际会议优秀论文奖2项。曾担任清华大学计算机科学与技术系智能技术与系统实验室主任、计算语言学学会亚太分会执委兼秘书长、Computational Linguistics编委、中国中文信息学会青年工作委员会主任。

演讲主题及嘉宾介绍 （按照发言先后顺序）

1、暖场介绍

介绍人：刘洋

2、TGEA：预训练语言模型文本生成错误标注数据集及基准测试任务

议题简介：近年来预训练语言模型在自然语言处理任务中取得了巨大的成功，在一些看似很困难的阅读理解任务上，表现甚至达到了跟人类可比的水平。但生成类语言模型（如GPT2/GPT3）所生成的文本中却还是经常会有一些明显的错误。我们从面向生成的预训练语言模型（GPT-2）入手，抽样选择了该模型所生成的部分文本，并进行了详细的错误标注。我们提出了一套完整的文本生成错误标注体系，并通过反复试验完善了这套标注体系。我们标注了近20万段文本，以此为基础，我们给出了预训练语言模型所生成文本的常见错误类型及分布。同时，基于这个数据集我们还开发了一套评测基准任务（Benchmark Tasks），用于测试现有NLP模型的识别和判断这类错误的能力。初步实验表明，现有的预训练语言模型在该数据集上的表现远远低于人类水平。我们将开放该数据集，并组织相关评测比赛。我们希望这项研究能够对以后预训练语言模型的研究提供启发和帮助。

刘群，华为，语音语义首席科学家

博士，教授，ACL Fellow，华为语音语义首席科学家，负责语音和自然语言处理研究。原爱尔兰都柏林城市大学教授、爱尔兰ADAPT中心自然语言处理主题负责人、中国科学院计算技术研究所研究员、自然语言处理研究组负责人。分别在中国科学技术大学、中科院计算所、北京大学获得计算机学士、硕士和博士学位。研究方向主要是自然语言理解、语言模型、机器翻译、问答、对话等。研究成果包括汉语词语切分和词性标注系统、基于句法的统计机器翻译方法、预训练语言模型的训练、压缩与应用等。承担或参与多项中国、爱尔兰和欧盟大型科研项目。在国际会议和期刊发表论文300余篇，被引用12000多次。培养国内外博士硕士毕业生50多人。获得过Google Research Award、ACL Best Long Paper、钱伟长中文信息处理科学技术奖一等奖、国家科技进步二等奖等奖项。

3、连续细微情感识别与理解的关键技术

议题简介：针对细微情感识别过程中的多模态融合问题、时序特征融入问题、鲁棒性问题进行分析，并在细微情感识别的基础上，探索在抑郁等场景中的应用。

陶建华，中国科学院自动化研究所研究员。中国科学院自动化所模式识别国家重点实验室副主任、博士生导师

国家杰出青年基金获得者，国家“万人计划”科技创新领军人才。中国计算机学会会士、常务理事，中国人工智能学会常务理事，中国图象图形学会人机交互专委会主任，主要研究方向为多模态信息处理、语音合成与识别、模式识别等。先后负责和参与国家级项目（863计划、国家自然科学基金、国际合作）40余项，在包括IEEE Trans、ICASSP、ICSLP、ICCV、ICIP等国内外学术期刊和会议上发表论文200余篇，论文和成果曾获中国电子学会技术发明一等奖等。

4、自然语言处理中的可解释性问题

议题简介：当前，以 BERT、GPT 为代表的、数据驱动的大规模预训练自然语言理解模型已经在多个自然语言理解任务上面取得了令人印象深刻的性能，成为自然语言理解的新范式。然而，当前大模型给出的自然语言处理结果在可信程度上还比较薄弱，主要体现在三个方面：模型的稳定性差、可解释性弱、泛化能力不足。本次报告重点针对大模型可解释性弱的问题，介绍，知识图谱中可解释的规则挖掘和推理、基于神经符号的可解释自然语言理解方法、阅读理解中的可解释性、情感计算中的原因发现等，试图从“可解释性”这一横断面，从理论、技术到应用，对自然语言处理的最新进展和趋势进行分析。

刘挺，哈尔滨工业大学教授，哈工大计算学部主任兼计算机学院院长、自然语言处理研究所所长

国家“万人计划”科技创新领军人才，“十四五”国家重点研发计划“先进计算与新兴软件”、“社会治理与智慧社会科技支撑”两个重点专项的指南专家、教育部人工智能科技创新专家组专家。中国计算机学会会士、理事，中国中文信息学会副理事长、社会媒体处理专委会（SMP）主任，黑龙江省中文信息处理重点实验室主任，黑龙江省“人工智能”头雁团队带头人。曾任国际顶级会议ACL、EMNLP领域主席。主要研究方向为人工智能、自然语言处理、社会计算和智慧医疗等，是国家重点研发项目“人机融合会诊”的首席科学家。主持研制“语言技术平台LTP”、“大词林”等科研成果被业界广泛使用。曾获国家科技进步二等奖、省科技进步一等奖、钱伟长中文信息处理科学技术一等奖等。

5、信息提取的鲁棒性问题

议题简介：信息提取主要包括命名实体识别及关系提取两大主要任务，旨在自动地从海量非结构化文本中抽取出关键信息，从而有效地支撑知识图谱构建和智能问答等下游任务。在深度学习时代，由于神经网络，特别是预训练模型已经能自动地提取高层语义特征，人们把更多的精力关注在如何构建预训练任务实现更完备的语义知识嵌入，以及如何高效使用这样的模型。然而，深度学习模型自动提取特征难以避免捷径学习问题，导致现实应用场景下的鲁棒性缺陷，对信息提取的下游应用带来了一些隐藏的危险，在低资源环境下尤为严重。本报告将围绕信息提取的鲁棒性问题展开深入分析，探究影响模型鲁棒性的深层原因，并介绍我们在弱样本、小样本、无标注、跨领域等场景上提升信息提取模型鲁棒性的研究成果。

黄萱菁，复旦大学计算机科学技术学院教授、博士生导师

主要从事自然语言处理、信息检索和社会媒体分析研究。兼任中国中文信息学会理事、社会媒体专委会副主任，中国计算机学会自然语言处理专委会副主任、学术工作委员会委员、中国人工智能学会女科技工作者委员会副主任、AACL执委，EMNLP 2021程序委员会主席。在高水平国际学术期刊和会议上发表了百余篇论文，负责的多个科研项目受到国家自然科学基金、科技部、教育部、上海市科委的支持。获2021年上海市育才奖，并入选“人工智能全球女性”、“AI 2000人工智能全球最具影响力提名学者”及“福布斯中国2020科技女性榜”。

6、圆桌讨论

圆桌讨论嘉宾

刘群，华为，语音语义首席科学家

陶建华，中国科学院自动化研究所研究员。中国科学院自动化所模式识别国家重点实验室副主任、博士生导师

刘挺，哈尔滨工业大学教授，哈工大计算学部主任兼计算机学院院长、自然语言处理研究所所长

黄萱菁，复旦大学计算机科学技术学院教授、博士生导师

刘洋，清华大学计算机科学与技术系长聘教授，清华大学智能产业研究院副院长，国家杰出青年基金获得者