哈工大教授车万翔：自然语言处理中的伪数据

智源社区

于 2022-04-19 15:19:53 发布

阅读量213

点赞数

文章标签：人工智能算法大数据 python 机器学习

本文链接：https://blog.csdn.net/BAAIBeijing/article/details/124287838

版权

本文探讨了自然语言处理中的“伪数据”方法，作为弥补预训练任务与目标任务差距的策略。伪数据包括移植、采集和制造，用于训练模型，提升NLP任务的性能。此外，文章讨论了数据增广技术，如复述、加噪和采样，及其在NLP领域的应用和挑战。

摘要由CSDN通过智能技术生成

导语：自然语言处理被誉为“人工智能皇冠上的明珠”。对语言的理解需要广义的“知识”，即狭义知识，算法和数据的约束。目前的预训练+微调的范式充分利用了数据类“知识”，然而存在预训练任务与目标任务之间的差距较大的问题，为了弥补这种差距，本文提出了“伪数据”方法。本文源于哈工大教授车万翔在智源社区所作报告《自然语言处理中的伪数据》。（报告回放https://event.baai.ac.cn/activities/350）

作者：车万翔博士，哈尔滨工业大学计算学部长聘教授、博士生导师，人工智能研究院副院长，社会计算与信息检索研究中心副主任。教育部青年长江学者，黑龙江省“龙江学者”青年学者，斯坦福大学访问学者。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长；国际计算语言学学会亚太分会（AACL）执委兼秘书长；中国计算机学会高级会员、曾任YOCSEF哈尔滨主席（2016-2017年度）。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文100余篇，其中AAAI 2013年的文章获得了最佳论文提名奖，论文累计被引6,000余次（Google Scholar数据）。

整理：牛梦琳

编辑：李梦佳

背景介绍

语言是思维的载体，是人类交流思想，表达情感最自然、最深刻、最方便的工具。《信息简史》中说：“历史和逻辑本身就是文字的产物。”自然语言主要是指人类的语言，而在自然语言处理（Natural Language Processing，NLP）中，自然语言特指文本信号，而非语音信号。自然语言处理主要包括两个方面：一是对文本符号本身的理解，二是自然语言的生成。

自然语言的应用有很多，如机器翻译、智能助手、文本校对、舆情分析、智能教育、信息检索等，可以说，只要涉及到对文本进行处理的任务，都有自然语言处理的用武之地。

自然语言处理本质上属于认知智能任务。众所周知，认知智能是人类与动物对主要区别之一，与许多动物也具有低级的感知智能不同，认知智能需要更强的抽象和推理能力。自然语言处理本身有很多特性，包括歧义性、抽象性、组合性、进化性、非规范性、主观性、知识性、难迁移性等。这些特性提升了自然语言处理的难度，自然语言处理也成为制约人工智能取得更大突破和更广泛应用的瓶颈。包括多位图灵奖得主在内的多位知名科学家都认为自然语言处理是下一个人工智能需要重点攻克的方向。

自然语言处理的核心困难，在于自然语言的形式与语义之间存在多对多的映射。为了解决这个困难，我们通常利用“知识”来进行约束。因此，如何获取和利用“知识”成为了一个关键科学问题。

“知识”

最低0.47元/天解锁文章

智源社区

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
哈工大教授车万翔：自然语言处理中的伪数据

导语：自然语言处理被誉为“人工智能皇冠上的明珠”。对语言的理解需要广义的“知识”，即狭义知识，算法和数据的约束。目前的预训练+微调的范式充分利用了数据类“知识”，然而存在预训练任务与目标任务之间的差距较大的问题，为了弥补这种差距，本文提出了“伪数据”方法。本文源于哈工大教授车万翔在智源社区所作报告《自然语言处理中的伪数据》。（报告回放https://event.baai....
复制链接

扫一扫