2024软件学院创新项目实训（3）

m0_62984044

已于 2024-05-30 13:17:56 修改

阅读量1.5k

点赞数 24

分类专栏： 2024软件学院创新项目实训-基于大模型的知识题库系统文章标签：大数据语言模型

于 2024-05-29 21:13:28 首次发布

本文链接：https://blog.csdn.net/m0_62984044/article/details/139305139

版权

2024软件学院创新项目实训-基于大模型的知识题库系统专栏收录该内容

6 篇文章 0 订阅

订阅专栏

引言

上一篇中，我们讨论了数据集对模型性能的影响以及模型过拟合、欠拟合的问题。而这篇我主要介绍一下对于我们要训练的模型——基于InternLM的考研政治题库系统中的InternLM模型，需要怎样的数据集。

我们要做的这个考研政治题库系统的功能是，给他题目，他能正确的给出答案以及详细的答案解析。但基于是文科学科，不是像高数等一些逻辑和思维难度比较高的学科，不需要给他先备知识来作为储备。所以我们是直接采用是利用题目和答案对大模型进行训练。

就类似于chatgpt，设有聊天框，你问他什么，他就回答什么，但是很明显，chatgpt无法准确的回答出考研题目，所以需要训练一个功能专一的模型，来完成这个功能，也就是我们所训练的基于InternLM的考研政治题库系统。

任务分配

明确需要怎样的数据集之后，还需要确定的就是数据集的规模，由于暂时还不确定模型拟合最好时的数据集大小，于是就暂定最初的训练集大小为3000条左右，负责收集数据的加上我还有两个人，于是我负责1000条左右数据的收集。

我们首先搜集的数据是近五年的肖四肖八预测题，因为肖四肖八的题目质量高，解析全，代表着训练集的质量高，可以让模型训练更加精准。

数据格式

得到肖四肖八试题后，暂时还不能对模型进行训练，因为训练InternLM所需要的数据是json格式的文件，并且还需要符合一定的格式，如下所示：

{
    "analysis":"....",
    "ans":2,
    "choices":[
        "...",
        "...",
        "...",
        "..."
    ],
    "content":"...",
    "origin":"...",
    "subject_id":1,
    "tid":5,
    "topic_id":2,
    "type":0
}

其中，`tid`为全局题号，`type`为题目类型（0为选择题），`subject_id`为该题目所属专题的编号，`topic_id`为改题目所属考点的编号，`origin`为题目来源，`content`为题干，`choices`列表为四个选项，`ans`为正确答案的索引，`analysis`为题目解析。

综合题的格式如下：

{
    "analysis":"....",
    "content":"....",
    "origin":"...",
    "subject_id":6,
    "tid":235,
    "topic_id":35,
    "type":1
}

其中，`tid`为全局题号，`type`为题目类型（1为填空题，2为综合题），`subject_id`为该题目所属专题的编号，`topic_id`为改题目所属考点的编号，`origin`为题目来源，`content`为题干，`ans`为正确答案，`analysis`为题目解析。

数据获取步骤

数据集准备

数据来源于近五年肖四肖八预测题，格式是doc文档。

数据预处理

对文档中的题目进行初步拆分和清洗。通常包括下列方法：

缺失值处理：填充缺失值或删除缺失数据，以避免对模型训练和预测产生负面影响。
异常值处理：识别和处理异常值，避免异常值对模型的影响。
数据平滑：平滑数据以减少噪声和波动，提高模型的稳定性和鲁棒性。
数据变换：对数据进行变换，如对数变换、标准化等，使数据符合模型的假设。
特征选择：选择对任务有意义的特征，减少特征维度，提高模型的效率和泛化能力。

数据清洗

本步骤由人工进行，将含有图、表的题目剔除，以及拆分不正确的题目剔除。保证数据质量。通常包括下列方法：