刘鹏飞_2022_reStructured Pre-training

reStructured Pre-training

论文中有一句话说得很好,这是prompted pretraining的过程,模型在pretrained的阶段,就像是在学习下游任务。
任务以生成任务的范式建模为统一的形式。

非常值得一阅。非常。

前言

整个IE经过的发展时期:
是不是大约每10年经过一轮变更?
不对,变更的时间在不断的缩减。
传统机器学习的时代在2011年左右接近尾声,之后,深度学习时代,18年,bert出现,开始转入模型结构时代,21年,提示学习开始崭露头角,22年,回归数据,数据结构化再次被关注。
paperweekly的讲解:https://blog.csdn.net/qq_27590277/article/details/125494870
在这里插入图片描述

论文中的原话是:数据的作用将被再次强调,模型的预训练和下游任务的微调被看作是一个数据存储和访问的过程。

技术的迭代总是沿着这样的方向发展,即系统开发者可以通过做更少的事情来设计一个更好和更普遍的系统。
在克服了一些工程上的挑战后,在由各种有价值的信息组成的重组数据上预训练模型,而不是原始数据。

在这里插入图片描述
1. 信号的定义 信号是有用的信息,可以为特定任务的知识学习服务,并指导模型进行学习优化。作为结构化学习的第一步,我们首先需要弄清楚世界上自然存在的、收集到的、可用的信号是什么。
2. 数据矿识别 在现实世界中,我们可以获得各种数据源,如新闻网站、维基百科、知识库,甚至是在线视频。数据矿是指富含不同类型信号的数据集合。一旦信号被定义,搜索合适的数据矿就有望实现(§3.2)。
3. 信号提取 如何从数据矿中有效地提取信号对重组学习也很重要。 我们将在第3.3节中详细介绍我们如何从信号源中挖掘信号。
4. 信号重组 这个过程关心的是如何用统一的格式表示所有类型的信号,缩小数据存储和数据检索之间的差距。我们将在第3.5节中详细介绍。
5. 预训练和调整 这个过程关心的是什么是理想的预训练结构,以便所有重组的信号可以有效地用于模型预训练。我们将在第3.6节中详细介绍。

标红的是我认为比较重要的项目。

信息提取过程涉及到了一些数据挖掘、数据重构、数据清洗的过程。

信息重组关键在于“怎么把信号尽可能的统一?”

文中对于信号的分类:按照模态、功能、寄生环境分为如下几大类:

在这里插入图片描述

信号和下游任务的关系:

总结了42个任务。
总结类、分类、时序判断…

数据格式采用的元组的形式。(text,summary)/(text,title) / (answer,title) / (review,sentiment) / (text,subject,property,object)

提示学习模板

  1. multiple-choice format
  2. generation format

I like this movie. Is this text ‘‘positive" or
‘‘negative"? while a generation format prompt could be the following: I like this movie. What’s
the sentiment of the previous text?. We use two special markers: “TEXT:” and “QUERY:” to
separate the general context and the intended task to be completed

评估和评测部分未介绍。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值