基于大模型来构建自己非结构化数据集的问答数据对

最新推荐文章于 2025-03-12 11:58:19 发布

强化学习曾小健

最新推荐文章于 2025-03-12 11:58:19 发布

阅读量4.1k

点赞数

分类专栏： LLM大语言模型文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/sinat_37574187/article/details/131601640

版权

LLM大语言模型专栏收录该内容

564 篇文章 ¥199.90 ¥299.90

订阅专栏

超级会员免费看

在instruct gpt 出来以前文本生成的输入只有原文。出现了instruct gpt以后。我们需要做一个特征丰富工程。通过特征丰富工程来提升文本生成任务的效果。如果仅仅是问答那就不要做这么大的模型。问答一般长度在1024以内可以解决掉。你见过什么样子的对话是长到没边际的吗。我想，用文本生成系列任务来表述现在的生成式语言大模型比较好。我在做的任务包括，基于文本滑动窗口构建专利文本解读的任务。还有基于药品说明书的专业性医疗交互的任务。今天和生成式语言模型交互的时候，发现了5-10B参数的文本生成式语言模型最大的能力是相对更小参数量的生成式语言模型具有更准确、清晰和结构化的生成结果。但是生成任务的泛化能力与幻想能力是一个博弈问题。重点的博弈是幻想如果少了，那泛化必然受到影响。幻想如果多了，那精准性必然受到影响。

我们可以看一下，这个结构的数据。这个结构的数据是面向于民航方面的专利进行生成式语言大模型的解读交互的生成结果。其中第一列为专利原文，第二列为基于专利原文和指令生成出来的问题，第三列为基于论文和生成出来的问题给出的相关解释。这里面我们只是用民航专利来举一个例子。我甚至在思考。是不是构建一个三段式的多步生成体系。完全没训练的训练是发生在数据发生调整以后的才算训练。而如何调整这个数据，如何找到一群人来共建一个有效的多段式的token在2048以内的有效的指令数据集。这非常的重要。</