过渡句数据生成经验记录

蒸土豆的技术细节

于 2024-11-29 16:50:09 发布

阅读量246

点赞数 1

文章标签：深度学习人工智能大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39006282/article/details/144140571

版权

我有一批过渡句标注数据，当初标注的方法是：启发下文的标，但是整体有增量信息的不标。
过渡句作为一个经典句子种类，与其他定义都有重合，因此边界不好划分。出于应用目的，我们设置标注方法时，偏向它对总结全文无意义，或是废话，因此有增量信息限制。而新引入的增量信息概念对模型来说是可判断的，例如只要一个句子是重复上下文以达到过渡目的，则它不包含增量信息。因此我们认为它比较容易被识别。
然而训练失败了。原因是预训练模型对过渡句的概念不那么好变过来，你需要大量实际过渡句数据来把这个定义的边界bias到你的概念上。
数据不够，那就生成数据吧。

失败方法

用我们标注数据的方法来叙述给4o，再给他raw文本数据，直接识别过渡句。
失败原因：模型本身对定义理解边界不清晰，即使是人也需要标注人员和算法工程师做大量概念对齐。这种情况属于是你人类都不知道边界在哪儿。

现在方法

实在是无法闭门造车，所以选择few-shot，给文章的分段部分，让模型按照给的few-shot文风，在上段末尾生成一个过渡句。
难点在于过渡句文风变化。一方面使用高temperature，另一方面同时生成3个文风不同的过渡句，以供后续筛选。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。