过渡句数据生成经验记录

我有一批过渡句标注数据,当初标注的方法是:启发下文的标,但是整体有增量信息的不标。
过渡句作为一个经典句子种类,与其他定义都有重合,因此边界不好划分。出于应用目的,我们设置标注方法时,偏向它对总结全文无意义,或是废话,因此有增量信息限制。而新引入的增量信息概念对模型来说是可判断的,例如只要一个句子是重复上下文以达到过渡目的,则它不包含增量信息。因此我们认为它比较容易被识别。
然而训练失败了。原因是预训练模型对过渡句的概念不那么好变过来,你需要大量实际过渡句数据来把这个定义的边界bias到你的概念上。
数据不够,那就生成数据吧。

失败方法

用我们标注数据的方法来叙述给4o,再给他raw文本数据,直接识别过渡句。
失败原因:模型本身对定义理解边界不清晰,即使是人也需要标注人员和算法工程师做大量概念对齐。这种情况属于是你人类都不知道边界在哪儿。

现在方法

实在是无法闭门造车,所以选择few-shot,给文章的分段部分,让模型按照给的few-shot文风,在上段末尾生成一个过渡句。
难点在于过渡句文风变化。一方面使用高temperature,另一方面同时生成3个文风不同的过渡句,以供后续筛选。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值