【专栏:前沿进展】近来,超大规模预训练模型快速发展,在自然语言处理领域引起热议。基于深度学习的自然语言处理技术正沿着“极大数据、极大模型、极大算力”的轨道,“无所不用其极”地一路奋进。
在8月28日举办的“第六届语言与智能高峰论坛”中,来自厦门大学史晓东教授(厦门大学人工智能研究所所长,中国中文信息学会常务理事),创新工场周明博士(创新工场首席科学家,澜舟科技创始人,ACL 前主席,微软亚洲研究院前副院长)等对预训练模型领域的发展情况做主题演讲报告。
史晓东教授提出,尽管当下有许多人认为大模型存在“大而无当”的问题,并以此提倡发展小模型,但小模型却可能“贫穷限制想象力”。NLP 如何能够走得更远,并非非此即彼。
周明博士认为针对当下 NLP 面临的难题,无论是神经模型还是符号模型,都存在难解问题。参照李飞飞等人最近提出的“Foundation Models”,周明建设性地提出,我们应该定义 “Foundation Skills”,并做微调来适应大任务。此外,周明还建议 “建立体系化的benchmark,推出推理评测的 GLUE”。
智源社区对相关的报告进行了整理,供读者参考。感谢史晓东教授和周明博士对本文的校对。
整理:戴一鸣
责编:贾 伟
大而强VS小而美
- 自然语言处理模型应该如何演进?-
讲者:史晓东,厦门大学教授
我今天的演讲主题是《大而强VS小而美,自然语言处理模型应该如何演进》。大家上午也听了孙茂松老师等老师的报告,都提到目前预训练训练语言模型越来越大。从这张比较早的图可以看出,GPT-3跟以前的模型相比参数规模差得非常大。
今年谷歌、国内的悟道等,都在