2024软件学院创新项目实训（2）

m0_62984044

已于 2024-05-29 21:16:08 修改

阅读量1.6k

点赞数 32

分类专栏： 2024软件学院创新项目实训-基于大模型的知识题库系统文章标签：深度学习机器学习语言模型

于 2024-05-29 20:24:18 首次发布

本文链接：https://blog.csdn.net/m0_62984044/article/details/139304616

版权

2024软件学院创新项目实训-基于大模型的知识题库系统专栏收录该内容

6 篇文章 0 订阅

订阅专栏

在上一篇中，我详细描述了创新实训项目——基于InternLM的考研政治题库系统中所需要用的大模型，微调工具，部署工具等，对项目整体做了一个全面的总览，而这一篇文章我主要讨论一下数据集对大模型性能的影响。

引言

在机器学习的过程中，训练与模型评估是至关重要的环节，它们直接决定着模型性能的优劣和泛化能力的强弱。本文将围绕训练集、验证集与测试集的划分原则，探讨模型过拟合与欠拟合的现象及其解决方案。

数据集划分

在训练模型的过程中，数据集一般被分为训练集（Training Set），验证集（Validation Set），测试集（Test Set），交叉验证集（Cross-Validation Set），增强数据集（Augmented Data Set）。

训练集（Training Set）：
- 作用：用于训练模型的参数，通过模型在训练集上的表现来学习数据的模式和特征。
- 影响：训练集的大小、质量和代表性对模型的训练效果和性能有重要影响。大规模、多样化和具有代表性的训练集有助于提高模型的泛化能力和性能。
验证集（Validation Set）：
- 作用：用于调整模型的超参数和结构，选择最佳的模型配置，以提高模型的性能。
- 影响：验证集的选择和使用对模型的调优和泛化能力有重要影响。合适的验证集可以帮助选择最佳的模型超参数，防止模型过拟合。
测试集（Test Set）：
- 作用：用于评估模型的泛化能力和性能，检验模型在未见数据上的表现。
- 影响：测试集的质量和代表性对模型的评估结果和泛化能力有重要影响。测试集应该与训练集和验证集独立，具有足够的多样性和难度。

交叉验证集（Cross-Validation Set）：
- 作用：用于评估模型的稳定性和泛化能力，减少模型性能评估的随机性。
- 影响：交叉验证集的选择和使用可以提高模型评估的可靠性和稳定性，减少因数据分布不均匀导致的评估偏差。
增强数据集（Augmented Data Set）：
- 作用：通过对原始数据进行扩充和增强，提高模型的鲁棒性和泛化能力。
- 影响：增强数据集可以帮助模型学习更多的数据模式和特征，减少过拟合风险，提高模型的性能。

当然，并不是训练每个大模型都需要用到交叉验证集和增强数据集，主要是还是看想要对模型的性能做出何种的要求，根据自己的需要来取舍是否需要交叉验证集和增强数据集。

数据集比例划分

在大多数情况下，理想的训练集、验证集和测试集的划分比例大致为60%至80%用于训练，10%至20%用于验证，剩余10%至20%用于测试。不过，这个比例并不是固定的，应根据数据集的大小、问题的复杂性以及模型类型等因素灵活调整。

对于数据量相对较小的问题，直接划分验证集可能会导致验证结果不稳定，这时可以采用交叉验证技术来提高评估的可靠性和充分利用有限的数据。例如，K折交叉验证（K-fold Cross-Validation）将数据集划分为K个相等大小的子集，每次迭代选取一个子集作为验证集，其余K-1个子集合并作为训练集，如此循环K次，最终取K次验证结果的平均值作为模型性能的评估指标。这种方式能在一定程度上缓解数据稀缺带来的评估偏差问题，确保模型在有限数据下的有效性。

过拟合与欠拟合及其解决方案

过拟合（Overfitting）和欠拟合（Underfitting）是机器学习中常见的问题，它们分别表示模型在训练集和测试集上的表现与期望不符的情况。

过拟合（Overfitting）

原因：过拟合通常是因为模型在训练集上表现过于复杂，过度拟合了训练数据中的噪声和细节，导致在测试集上泛化能力较差。

解决方案：

a. 数据增强：增加训练数据量，通过数据增强技术扩充数据集，减少模型对噪声的敏感度。
b. 正则化：引入正则化项，如L1正则化（Lasso）或L2正则化（Ridge），惩罚模型复杂度，防止过拟合。
c. 早停策略：在训练过程中监控验证集的性能，当性能开始下降时停止训练，以防止模型过拟合。
d. 模型简化：简化模型结构，减少模型的复杂度，避免过度拟合训练数据。

欠拟合（Underfitting）：

原因：欠拟合通常是因为模型在训练集上表现过于简单，无法捕捉数据中的复杂模式和特征，导致在测试集上表现不佳。

解决方案：

a. 增加模型复杂度：增加模型的复杂度，如增加网络层数、神经元数量等，以提高模型的表达能力。
b. 特征工程：对数据进行特征工程，提取更多有效的特征，以帮助模型更好地学习数据的模式。
c. 调整超参数：调整学习率、批大小、正则化系数等超参数，以优化模型的训练过程和性能。
d. 使用更复杂的模型：如果模型过于简单无法满足任务需求，可以尝试使用更复杂的模型或集成学习方法。