（7-2-02）模型评估：模型验证（2）

码农三叔

于 2024-10-05 16:02:20 发布

阅读量216

点赞数 8

分类专栏：大模型从入门到实战(数据集、训练、RAG、多模态) 文章标签：机器学习人工智能大模型多模态模型验证语言模型

本文链接：https://blog.csdn.net/asd343442/article/details/142715327

版权

大模型从入门到实战(数据集、训练、RAG、多模态) 专栏收录该内容

191 篇文章 4 订阅 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

7.2.4 嵌套交叉验证

嵌套交叉验证用于同时调优模型的超参数和验证模型性能，特别适用于文生图大模型的复杂性。

外层交叉验证：用于评估模型的泛化性能。
内层交叉验证：用于超参数调优，确保选择的参数能够在验证集上表现良好。

例如下面是一个使用嵌套交叉验证同时调优模型超参数并验证模型性能的例子，在例子中使用了一个简单的模拟数据集来进行演示。

import numpy as np
from sklearn.model_selection import GridSearchCV, KFold
from sklearn.svm import SVC

# 模拟图像和文本数据
image_data = np.random.rand(100, 10)  # 假设有 100 个图像样本，每个样本有 10 个特征
text_data = np.random.rand(100, 20)   # 假设有 100 个文本样本，每个样本有 20 个特征
labels = np.random.randint(2, size=100)  # 随机生成 0 和 1 的标签，假设有 100 个样本

# 定义模型
svm = SVC()

# 定义超参数网格
param_grid = {
    'C': [0.1, 1, 10],
    'gamma': [0.01, 0.1, 1],
    'kernel': ['linear', 'rbf']
}

# 定义嵌套交叉验证
outer_cv = KFold(n_splits=5, shuffle=True, random_state=42)
inner_cv = KFold(n_splits=3, shuffle=True, random_state=42)

# 执行嵌套交叉验证及超参数调优
grid_search = GridSearchCV(estimator=svm, param_grid=param_grid, cv=inner_cv)
nested_score = []

for train_index, test_index in outer_cv.split(image_data):
    X_train_image, X_test_image = image_data[train_index], image_data[test_index]
    X_train_text, X_test_text = text_data[train_index], text_data[test_index]
    y_train, y_test = labels[train_index], labels[test_index]
    
    # 在内层交叉验证上进行超参数调优
    grid_search.fit(X_train_image, y_train)  # 使用图像数据进行内层交叉验证
    best_params = grid_search.best_params_
    
    # 在外层交叉验证上评估性能
    svm_best = SVC(**best_params)
    svm_best.fit(X_train_text, y_train)  # 使用文本数据训练模型
    score = svm_best.score(X_test_text, y_test)  # 使用文本数据验证模型性能
    nested_score.append(score)

# 输出嵌套交叉验证结果
print("嵌套交叉验证结果：", nested_score)
print("平均准确率：", np.mean(nested_score))

在上述代码的内层交叉验证中，使用了 GridSearchCV 来选择最佳超参数；在外层交叉验证中，评估了模型的性能。

7.2.5 模态间一致性验证

在大模型应用中，模态间一致性验证是指确保不同模态（比如图像、文本、语音等）之间的信息是一致的或者是相互补充的，这种一致性验证对于确保模型的有效性和泛化能力非常重要。具体来说，在实际应用中使用模态间一致性验证的主要原因如下：

信息互补性：不同模态往往提供了样本不同方面的信息，比如图像可以提供视觉信息，文本可以提供语义信息，音频可以提供声音信息。模态间一致性验证可以确保这些信息是相互补充的，而不是相互矛盾的。
模态相关性：不同模态之间可能存在相关性，比如一张图片和相应的文本描述通常是相关的。模态间一致性验证可以确保模型能够充分利用这种相关性。

实现模态间一致性验证的主要方法如下所示：

特征级一致性验证：检查不同模态提取的特征之间的相似性或相关性。可以使用相关系数、协方差等方法进行衡量。
模型级一致性验证：在模型中引入跨模态的一致性约束，确保模型学习到的表示能够在不同模态之间保持一致性。比如，在文生图融合模型中，可以使用跨模态的损失函数来促使模型学习到一致的表示。
交叉模态验证：使用一个模态的数据来验证在另一个模态上训练的模型的性能。例如，使用图像数据来验证在文本数据上训练的模型，以及使用文本数据来验证在图像数据上训练的模型，以确保模型对不同模态的泛化能力。

在实际应用中，实现模态间一致性验证的主要步骤如下所示。

（1）特征提取：对每个模态的数据进行特征提取，确保得到可用于模型的表示。

（2）模型训练：分别使用每个模态的数据训练模型，或者使用文生图数据训练融合模型。

（3）实现模态间一致性验证，主要步骤如下：

检查特征级一致性：比较不同模态提取的特征之间的相似性。
引入模型级一致性约束：在模型中引入跨模态的一致性约束。
进行交叉模态验证：使用一个模态的数据来验证在另一个模态上训练的模型的性能。
调优和评估：根据验证结果调优模型，并最终评估模型的性能。

通过模态间一致性验证，可以确保文生图模型能够充分利用不同模态之间的信息，提高模型的鲁棒性和泛化能力。请看下面的实例，展示了在大模型应用中实现模态间一致性验证的过程。

实例7-7：在大模型中实现模态间一致性验证（源码路径：codes/7/mo.py）

实例文件mo.py的具体实现代码如下所示。

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.model_selection import cross_val_score, KFold
from sklearn.svm import SVC

# 模拟图像和文本数据
image_data = np.random.rand(100, 10)  # 假设有 100 个图像样本，每个样本有 10 个特征
text_data = np.random.rand(100, 10)   # 假设有 100 个文本样本，每个样本有 10 个特征
labels = np.random.randint(2, size=100)  # 随机生成 0 和 1 的标签，假设有 100 个样本

# 特征提取
image_features = image_data.mean(axis=1, keepdims=True)  # 图像特征为特征均值
text_features = text_data.mean(axis=1, keepdims=True)    # 文本特征为特征均值

# 模型训练
svm_image = SVC()
svm_text = SVC()

# 实现模态间一致性验证
# 检查特征级一致性：计算图像和文本特征之间的相似性（这里使用余弦相似度）
feature_similarity = cosine_similarity(image_features, text_features)
print("特征级一致性（余弦相似度）：\n", feature_similarity)

# 引入模型级一致性约束：在模型中引入跨模态的一致性约束（这里简单示例使用两个模型的预测结果的平均）
kf = KFold(n_splits=5, shuffle=True, random_state=42)
for train_index, test_index in kf.split(image_data):
    X_train_image, X_test_image = image_features[train_index], image_features[test_index]
    X_train_text, X_test_text = text_features[train_index], text_features[test_index]
    y_train, y_test = labels[train_index], labels[test_index]
    
    # 在图像数据上训练模型
    svm_image.fit(X_train_image, y_train)
    # 在文本数据上训练模型
    svm_text.fit(X_train_text, y_train)
    
    # 模型级一致性约束：使用两个模型的预测结果的平均作为最终的预测结果
    pred_image = svm_image.predict(X_test_image)
    pred_text = svm_text.predict(X_test_text)
    pred_combined = (pred_image + pred_text) / 2  # 取平均
    score_combined = np.mean(pred_combined == y_test)
    print("模型级一致性约束下的准确率：", score_combined)

在上述代码中，首先计算了图像和文本特征之间的相似性（余弦相似度），然后使用支持向量机模型分别在图像数据和文本数据上进行训练。接着利用模型级一致性约束，采用两个模型的预测结果的平均作为最终预测结果，并通过交叉验证计算了模型在不同数据子集上的准确率，以验证模态间一致性。执行后会输出：

特征级一致性（余弦相似度）：
 [[1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 ...
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]
 [1. 1. 1. ... 1. 1. 1.]]
模型级一致性约束下的准确率： 0.05
模型级一致性约束下的准确率： 0.25
模型级一致性约束下的准确率： 0.4
模型级一致性约束下的准确率： 0.2
模型级一致性约束下的准确率： 0.3

上面的输出结果展示了特征级一致性的余弦相似度矩阵以及模型级一致性约束下的准确率，这里的准确率仅作演示用，在实际应用中可能需要更复杂的模型和特征工程。另外，上面的特征级一致性（余弦相似度）矩阵显示所有图像和文本特征之间的余弦相似度均为1，这是因为在例子中使用了随机生成的数据，并且简单地计算了特征的均值，因此相似度为1。

7.2.6 模型鲁棒性验证

验证模型在不同环境和条件下的表现，以确保其鲁棒性。

噪声和干扰测试：在数据中加入噪声和干扰，评估模型的鲁棒性。例如，在图像数据中加入噪点，或在音频数据中加入背景噪声。
缺失模态测试：验证模型在某些模态数据缺失情况下的性能，确保其在部分模态缺失时仍能有效工作。

请看下面的例子，演示了在大模型应用中实现模型鲁性验证的过程，包括噪声干扰以及模态缺失测试功能。

实例7-8：模型的噪声干扰以及模态缺失测试（源码路径：codes/7/que.py）

实例文件que.py的具体实现代码如下所示。

import numpy as np
from sklearn.model_selection import KFold
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# 模拟图像和文本数据
np.random.seed(42)
image_data = np.random.rand(100, 10)  # 100 个图像样本，每个样本有 10 个特征
text_data = np.random.rand(100, 20)  # 100 个文本样本，每个样本有 20 个特征
labels = np.random.randint(2, size=100)  # 随机生成 0 和 1 的标签


# 噪声和干扰测试
def add_noise(data, noise_level=0.1):
    noisy_data = data + noise_level * np.random.randn(*data.shape)
    return noisy_data


# 缺失模态测试
def remove_modality(data, missing_rate=0.5):
    mask = np.random.rand(*data.shape) > missing_rate
    return data * mask


# 加入噪声的图像和文本数据
noisy_image_data = add_noise(image_data)
noisy_text_data = add_noise(text_data)

# 去除部分模态的图像和文本数据
missing_image_data = remove_modality(image_data)
missing_text_data = remove_modality(text_data)


# 模型训练和验证
def train_and_evaluate(X_image, X_text, y):
    kf = KFold(n_splits=5, shuffle=True, random_state=42)
    accuracies = []

    for train_index, test_index in kf.split(X_image):
        X_train_image, X_test_image = X_image[train_index], X_image[test_index]
        X_train_text, X_test_text = X_text[train_index], X_text[test_index]
        y_train, y_test = y[train_index], y[test_index]

        # 在图像数据上训练模型
        svm_image = SVC().fit(X_train_image, y_train)
        # 在文本数据上训练模型
        svm_text = SVC().fit(X_train_text, y_train)

        # 预测并计算准确率
        pred_image = svm_image.predict(X_test_image)
        pred_text = svm_text.predict(X_test_text)

        # 简单地平均两个模型的预测结果
        pred_combined = (pred_image + pred_text) / 2
        pred_combined = np.round(pred_combined).astype(int)

        accuracy = accuracy_score(y_test, pred_combined)
        accuracies.append(accuracy)

    return np.mean(accuracies)


# 原始数据的准确率
accuracy_original = train_and_evaluate(image_data, text_data, labels)
print("原始数据的准确率:", accuracy_original)

# 噪声数据的准确率
accuracy_noisy = train_and_evaluate(noisy_image_data, noisy_text_data, labels)
print("噪声数据的准确率:", accuracy_noisy)

# 缺失模态数据的准确率
accuracy_missing = train_and_evaluate(missing_image_data, missing_text_data, labels)
print("缺失模态数据的准确率:", accuracy_missing)

上述代码通过模拟文本数据和图片数据，展示了在添加噪声和缺失部分模式的情况下对分类模型性能的影响。首先生成随机文本数据及其二分类标签，然后定义函数向数据添加噪声和移除模式。接着，利用交叉验证方法训练和评估在何种条件下支持向量机（SVM）分类器的准确率，比较原始数据、噪声数据和缺失部分模式。执行后会输出：

原始数据的准确率: 0.5700000000000001
噪声数据的准确率: 0.5800000000000001
缺失模态数据的准确率: 0.53

7.2.7 验证指标

在文生图模型应用中，使用多种指标来综合评估模型的验证效果。

准确率、精确率、召回率、F1值：分别用于评估分类任务中的性能。
ROC曲线和AUC：评估二分类或多分类任务中的性能。
BLEU、ROUGE等：评估文本生成任务的性能。
Mean Squared Error（MSE）、Mean Absolute Error（MAE）：用于回归任务中的性能评估。

请看下面的例子，演示了使用多种指标综合评估模型性能的过程。首先，生成和处理数据，包括添加噪声和移除部分模态。接着，使用交叉验证方法训练支持向量机（SVM）模型，并预测分类结果。最后，计算并打印了多种评估指标（准确率、精确率、召回率、F1值、ROC曲线和AUC），以全面评估模型的验证效果，并进行了实验。

实例7-9：使用多种指标综合评估模型的性能（源码路径：codes/7/zong.py）

实例文件zong.py的具体实现代码如下所示。

import numpy as np
from sklearn.model_selection import KFold
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, roc_curve
import matplotlib.pyplot as plt

# 模拟图像和文本数据
np.random.seed(42)
image_data = np.random.rand(100, 10)  # 100 个图像样本，每个样本有 10 个特征
text_data = np.random.rand(100, 20)  # 100 个文本样本，每个样本有 20 个特征
labels = np.random.randint(2, size=100)  # 随机生成 0 和 1 的标签

# 噪声和干扰测试
def add_noise(data, noise_level=0.1):
    noisy_data = data + noise_level * np.random.randn(*data.shape)
    return noisy_data

# 缺失模态测试
def remove_modality(data, missing_rate=0.5):
    mask = np.random.rand(*data.shape) > missing_rate
    return data * mask

# 加入噪声的图像和文本数据
noisy_image_data = add_noise(image_data)
noisy_text_data = add_noise(text_data)

# 去除部分模态的图像和文本数据
missing_image_data = remove_modality(image_data)
missing_text_data = remove_modality(text_data)

# 模型训练和验证
def train_and_evaluate(X_image, X_text, y):
    kf = KFold(n_splits=5, shuffle=True, random_state=42)
    metrics = {
        'accuracy': [],
        'precision': [],
        'recall': [],
        'f1': [],
        'roc_auc': []
    }
    
    all_y_true = []
    all_y_pred = []
    all_y_scores = []

    for train_index, test_index in kf.split(X_image):
        X_train_image, X_test_image = X_image[train_index], X_image[test_index]
        X_train_text, X_test_text = X_text[train_index], X_text[test_index]
        y_train, y_test = y[train_index], y[test_index]

        # 在图像数据上训练模型
        svm_image = SVC(probability=True).fit(X_train_image, y_train)
        # 在文本数据上训练模型
        svm_text = SVC(probability=True).fit(X_train_text, y_train)

        # 预测并计算准确率
        pred_image = svm_image.predict(X_test_image)
        pred_text = svm_text.predict(X_test_text)
        
        # 获取概率分数
        scores_image = svm_image.predict_proba(X_test_image)[:, 1]
        scores_text = svm_text.predict_proba(X_test_text)[:, 1]
        
        # 简单地平均两个模型的预测结果
        pred_combined = (pred_image + pred_text) / 2
        scores_combined = (scores_image + scores_text) / 2

        pred_combined = np.round(pred_combined).astype(int)
        
        all_y_true.extend(y_test)
        all_y_pred.extend(pred_combined)
        all_y_scores.extend(scores_combined)
        
        # 计算各种指标
        metrics['accuracy'].append(accuracy_score(y_test, pred_combined))
        metrics['precision'].append(precision_score(y_test, pred_combined))
        metrics['recall'].append(recall_score(y_test, pred_combined))
        metrics['f1'].append(f1_score(y_test, pred_combined))
        metrics['roc_auc'].append(roc_auc_score(y_test, scores_combined))

    return metrics, all_y_true, all_y_pred, all_y_scores

# 原始数据的评估指标
metrics_original, y_true_original, y_pred_original, y_scores_original = train_and_evaluate(image_data, text_data, labels)

# 打印评估结果
print("原始数据的评估结果:")
for metric in metrics_original:
    print(f"{metric}: {np.mean(metrics_original[metric])}")

# 绘制ROC曲线
fpr, tpr, _ = roc_curve(y_true_original, y_scores_original)
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % np.mean(metrics_original['roc_auc']))
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC)')
plt.legend(loc="lower right")
plt.show()

上述代码的实现流程如下所示：

首先，模拟生成了文本数据以及它们的二分类标签。
然后，构建添加噪声和移除噪声的函数add_noise和remove_modality用于数据处理，分别对数据添加噪声和移除噪声的模态。
然后，实现了模型训练和验证的函数train_and_evaluate，其中保证K折交叉验证的方法。每个交叉验证的折叠中，分别在训练支持向量机（SVM）模型，并进行预测，得到模型的分类结果和概率分数，然后计算多种评估指标。
最后，对原始数据进行了模型训练和评估，计算了准确率、精确率、召回率、F1值和AUC等评估指标，同时以MongoDB展示模型的分类性能绘制了ROC曲线。

执行后会打印输出如下准确率、精确率、召回率、F1值和AUC等评估指标，并绘制如图7-8所示的ROC曲线。

原始数据的评估结果:
accuracy: 0.5700000000000001
precision: 0.7333333333333334
recall: 0.19
f1: 0.2756798756798757
roc_auc: 0.43198809523809534

图7-8 ROC曲线图

码农三叔

关注

8
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录