【大模型解惑】大模型如何划分训练、验证和测试集？和普通的机器学习有何不同-CSDN博客

本文链接：https://blog.csdn.net/l35633/article/details/147572865

大模型与普通机器学习的数据集划分对比及实践

数据集划分基础概念
普通机器学习的数据划分方法
大模型场景的特殊挑战
典型场景案例与代码实现
- 4.1 普通机器学习案例（鸢尾花分类）
- 4.2 大模型场景案例（NLP/CV/多模态）
核心差异对比表
挑战与解决方案
总结

1. 数据集划分基础概念

训练集：模型学习的主要数据源
验证集：超参数调优与早停判断
测试集：最终性能评估（仅用一次）
关键原则：数据分布一致性、严格隔离测试集

2. 普通机器学习的数据划分方法

典型流程（以Scikit-learn为例）：

from sklearn.model_selection import train_test_split

# 原始数据加载
X, y = load_data()

# 分层抽样划分（保持类别比例）
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y, test_size=0.3, stratify=y, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=42)

print(f"划分结果: 训练集{len(X_train)}, 验证集{len(X_val)}, 测试集{len(X_test)}")

3. 大模型场景的特殊挑战

关键差异点：

维度	普通机器学习	大模型
数据规模	MB~GB级	TB~PB级
划分策略	随机抽样	时间划分/领域划分
验证集使用	多次使用	单次或少次评估
数据存储	内存加载	分布式存储+流式加载
典型场景	单任务	多任务/持续学习

4. 典型场景案例与代码实现

4.1 普通机器学习案例

场景：鸢尾花分类

# 完整代码示例（含分层抽样）
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载数据
iris = load_iris()
X, y = iris.data, iris.target

# 两级划分保持分布
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(
    X_test, y_test, test_size=0.5, stratify=y_test, random_state=42)

# 输出样本量
print(f"训练集: {X_train.shape[0]} samples")
print(f"验证集: {X_val.shape[0]} samples")
print(f"测试集: {X_test.shape[0]} samples")

4.2 大模型场景案例

Case 1: NLP预训练（HuggingFace实践）

from datasets import load_dataset

# 加载Wikipedia数据集（流式模式处理大数据）
dataset = load_dataset("wikipedia", "20220301.en", split='train', streaming=True)

# 定义划分比例
train_ratio = 0.98
val_ratio = 0.01
test_ratio = 0.01

# 流式数据划分（避免内存溢出）
train_dataset = dataset.take(int(1e6 * train_ratio))
remaining = dataset.skip(int(1e6 * train_ratio))
val_dataset = remaining.take(int(1e6 * val_ratio))
test_dataset = remaining.skip(int(1e6 * val_ratio)).take(int(1e6 * test_ratio))

# 转换为可迭代对象
train_iter = iter(train_dataset)

Case 2: 时间序列数据（金融预测）

# 按时间戳划分避免未来泄漏
df = load_stock_data().sort_values('timestamp')

split_idx = int(len(df)*0.95)
train_df = df.iloc[:split_idx]
temp_df = df.iloc[split_idx:]

val_cutoff = temp_df['timestamp'].quantile(0.5)
val_df = temp_df[temp_df.timestamp <= val_cutoff]
test_df = temp_df[temp_df.timestamp > val_cutoff]

Case 3: 多模态数据（图文匹配）

# 保持图文对关系的划分
import pandas as pd
from sklearn.model_selection import GroupShuffleSplit

metadata = pd.read_csv("image_text_pairs.csv")
splitter = GroupShuffleSplit(test_size=0.2, n_splits=1, random_state=42)

# 按样本ID分组划分
train_idx, test_idx = next(splitter.split(metadata, groups=metadata['sample_id']))
train_meta = metadata.iloc[train_idx]
test_meta = metadata.iloc[test_idx]

# 进一步划分验证集
splitter_val = GroupShuffleSplit(test_size=0.5)
train_idx_val, val_idx = next(splitter_val.split(train_meta, groups=train_meta['sample_id']))

5. 核心差异对比表

操作项	普通模型	大模型
划分比例	通常70-20-10	常为98-1-1（大数据场景）
数据顺序	随机打乱	可能保留时序/领域顺序
数据存储格式	CSV/NumPy数组	TFRecord/Parquet/内存映射文件
划分执行位置	内存操作	分布式存储系统级操作
重复使用验证集	常见（如交叉验证）	严格限制次数

6. 挑战与解决方案

常见问题：

数据分布偏移 → 领域自适应划分策略
内存限制 → 使用datasets库的磁盘映射功能
多模态对齐 → GroupShuffleSplit保持关联
评估成本高 → 小比例验证集+Proxy指标

优化代码示例（内存映射）：

# 处理超大数据集
from datasets import load_from_disk

# 加载已预处理的磁盘映射数据集
dataset = load_from_disk("path/to/dataset")

# 高效划分（零拷贝操作）
dataset = dataset.class_encode_column("label")
split = dataset.train_test_split(
    test_size=0.01, 
    stratify_by_column="label",
    seed=42
)