2024软件学院创新项目实训(3)

引言       

上一篇中,我们讨论了数据集对模型性能的影响以及模型过拟合、欠拟合的问题。而这篇我主要介绍一下对于我们要训练的模型——基于InternLM的考研政治题库系统中的InternLM模型,需要怎样的数据集。

        我们要做的这个考研政治题库系统的功能是,给他题目,他能正确的给出答案以及详细的答案解析。但基于是文科学科,不是像高数等一些逻辑和思维难度比较高的学科,不需要给他先备知识来作为储备。所以我们是直接采用是利用题目和答案对大模型进行训练。

        就类似于chatgpt,设有聊天框,你问他什么,他就回答什么,但是很明显,chatgpt无法准确的回答出考研题目,所以需要训练一个功能专一的模型,来完成这个功能,也就是我们所训练的基于InternLM的考研政治题库系统。

任务分配

        明确需要怎样的数据集之后,还需要确定的就是数据集的规模,由于暂时还不确定模型拟合最好时的数据集大小,于是就暂定最初的训练集大小为3000条左右,负责收集数据的加上我还有两个人,于是我负责1000条左右数据的收集。

        我们首先搜集的数据是近五年的肖四肖八预测题, 因为肖四肖八的题目质量高,解析全,代表着训练集的质量高,可以让模型训练更加精准。

数据格式

        得到肖四肖八试题后,暂时还不能对模型进行训练,因为训练InternLM所需要的数据是json格式的文件,并且还需要符合一定的格式,如下所示:

{
    "analysis":"....",
    "ans":2,
    "choices":[
        "...",
        "...",
        "...",
        "..."
    ],
    "content":"...",
    "origin":"...",
    "subject_id":1,
    "tid":5,
    "topic_id":2,
    "type":0
}

其中,`tid`为全局题号,`type`为题目类型(0为选择题),`subject_id`为该题目所属专题的编号,`topic_id`为改题目所属考点的编号,`origin`为题目来源,`content`为题干,`choices`列表为四个选项,`ans`为正确答案的索引,`analysis`为题目解析。

综合题的格式如下:

{
    "analysis":"....",
    "content":"....",
    "origin":"...",
    "subject_id":6,
    "tid":235,
    "topic_id":35,
    "type":1
}

其中,`tid`为全局题号,`type`为题目类型(1为填空题,2为综合题),`subject_id`为该题目所属专题的编号,`topic_id`为改题目所属考点的编号,`origin`为题目来源,`content`为题干,`ans`为正确答案,`analysis`为题目解析。

数据获取步骤

数据集准备

数据来源于近五年肖四肖八预测题,格式是doc文档。

数据预处理

对文档中的题目进行初步拆分和清洗。通常包括下列方法:

  • 缺失值处理:填充缺失值或删除缺失数据,以避免对模型训练和预测产生负面影响。
  • 异常值处理:识别和处理异常值,避免异常值对模型的影响。
  • 数据平滑:平滑数据以减少噪声和波动,提高模型的稳定性和鲁棒性。
  • 数据变换:对数据进行变换,如对数变换、标准化等,使数据符合模型的假设。
  • 特征选择:选择对任务有意义的特征,减少特征维度,提高模型的效率和泛化能力。

数据清洗

本步骤由人工进行,将含有图、表的题目剔除,以及拆分不正确的题目剔除。保证数据质量。通常包括下列方法:

  • 去除重复值:去除数据集中的重复样本,避免重复样本对模型训练和评估的影响。
  • 处理不一致数据:统一数据格式和单位,解决数据中的不一致性问题。
  • 处理错误数据:识别和处理数据中的错误值或不合理数据,提高数据的准确性和可靠性。

数据标准化

对题目数据的格式进行标准化,并使用json格式存储。将所有题目分为两种类型:选择题、综合题。作用如下:

  • 将数据转换为统一的标准尺度,有助于不同特征之间的比较和权重的平衡。
  • 提高模型的收敛速度和稳定性,避免因特征尺度不同而导致模型训练过程中的困难。
  • 使模型更容易解释和理解,减少特征对模型预测结果的影响。

        总的来说,数据预处理、数据清洗和数据标准化是为了提高数据质量和模型性能,减少数据中的噪声和干扰,使数据更适合用于机器学习任务。通过这些处理步骤,可以提高模型的准确性、稳定性和泛化能力,从而更好地应用于实际问题中。

这一篇内容暂时介绍到这里,下一篇内容将详细介绍代码实现部分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值