我有一批过渡句标注数据,当初标注的方法是:启发下文的标,但是整体有增量信息的不标。
过渡句作为一个经典句子种类,与其他定义都有重合,因此边界不好划分。出于应用目的,我们设置标注方法时,偏向它对总结全文无意义,或是废话,因此有增量信息限制。而新引入的增量信息概念对模型来说是可判断的,例如只要一个句子是重复上下文以达到过渡目的,则它不包含增量信息。因此我们认为它比较容易被识别。
然而训练失败了。原因是预训练模型对过渡句的概念不那么好变过来,你需要大量实际过渡句数据来把这个定义的边界bias到你的概念上。
数据不够,那就生成数据吧。
失败方法
用我们标注数据的方法来叙述给4o,再给他raw文本数据,直接识别过渡句。
失败原因:模型本身对定义理解边界不清晰,即使是人也需要标注人员和算法工程师做大量概念对齐。这种情况属于是你人类都不知道边界在哪儿。
现在方法
实在是无法闭门造车,所以选择few-shot,给文章的分段部分,让模型按照给的few-shot文风,在上段末尾生成一个过渡句。
难点在于过渡句文风变化。一方面使用高temperature,另一方面同时生成3个文风不同的过渡句,以供后续筛选。