自训练：一种应对标注数据稀缺的半监督学习技术及其Python实现

最新推荐文章于 2024-06-29 00:39:29 发布

Chen_Chance

最新推荐文章于 2024-06-29 00:39:29 发布

阅读量1k

点赞数 18

文章标签：学习 python 开发语言

本文链接：https://blog.csdn.net/qq_44154915/article/details/137747816

版权

自训练（Self-training）是一种简单而流行的半监督学习技术，常用于当标注数据稀缺但未标注数据丰富时。自训练的核心思想是利用少量标注数据训练一个初步的模型，然后使用这个模型预测未标注数据的标签。预测中最有信心的部分（通常是预测概率最高的）将被视为正确，加入训练集中，用于进一步训练模型。这个过程可以迭代多次，直到达到特定的性能标准或直到不再有显著的改进。

理论基础

自训练假设模型对于高置信度预测的标签是正确的，这基于信任模型在高自信度下的判断。这种方法特别适合于分类和回归任务，并已广泛应用于图像识别、自然语言处理等领域。

算法步骤

自训练的基本步骤通常包括：

模型初始化：使用有标签的数据训练一个基础模型。
标签预测：使用训练好的模型对未标签数据进行预测，选择自信度最高的数据点。
数据选择：将自信度高的预测作为真实标签加入原始训练集。
模型更新：使用更新后的训练集重新训练模型。
迭代优化：重复步骤2-4，直到满足停止条件（如迭代次数、性能标准等）。

数学表示

设 $X_l$ 和 $Y_l$ 分别为有标签的训练数据的特征集和标签集， $X_u$ 为无标签的数据特征集。模型 $f$ 的目标是学习从 $X$ 到 $Y$ 的映射。在自训练的每次迭代中：

训练模型 $f$ 使用已知的 $X_l, Y_l)$ 。
使用 $f$ 预测 $X_u$ 的标签 $\hat{Y}_u$ 。
选择 $\hat{Y}_u$ 中置信度最高的 $k$ 个数据点 $X_{high}, Y_{high})$ 。
更新 $X_l$ 和 $Y_l$ ： $X_l = X_l \cup X_{high}$ ， $Y_l = Y_l \cup Y_{high}$ 。

Python 代码示例

以下是使用 Python 实现自训练的简单例子，我们将使用 scikit-learn 的决策树分类器作为基模型：

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import numpy as np

# 加载数据
data = load_iris()
X, y = data.data, data.target

# 分割数据为有标签和无标签
X_labeled, X_unlabeled, y_labeled, y_unlabeled = train_test_split(X, y, test_size=0.7, random_state=42)

# 将无标签数据的标签设置为未知
y_unlabeled[:] = -1

# 初始训练集
X_train = X_labeled
y_train = y_labeled

# 初始化模型
model = DecisionTreeClassifier()

# 自训练迭代
for iteration in range(10):
    # 检查是否还有未标记数据
    if X_unlabeled.size == 0:
        print("No more unlabeled data available. Stopping early.")
        break

    # 训练模型并预测未标记数据的标签
    model.fit(X_train, y_train)
    y_pred = model.predict_proba(X_unlabeled)
    max_prob = np.max(y_pred, axis=1)
    confident_indices = np.where(max_prob > 0.9)[0]  # 置信度阈值

    if confident_indices.size == 0:
        print("No more confident predictions. Stopping early.")
        break

    X_confident = X_unlabeled[confident_indices]
    y_confident = np.argmax(y_pred[confident_indices], axis=1)

    # 更新训练集
    X_train = np.vstack((X_train, X_confident))
    y_train = np.concatenate((y_train, y_confident))

    # 更新未标签集
    X_unlabeled = np.delete(X_unlabeled, confident_indices, axis=0)
    y_unlabeled = np.delete(y_unlabeled, confident_indices, axis=0)

    print(f"Iteration {iteration + 1}, Training size: {len(y_train)}")

# 最终模型评估
print("Training completed.")

这个示例中，我们使用 Iris 数据集，并模拟了一个半监督学习场景，其中70%的数据最初没有标签。通过自训练，模型逐步引入了最自信预测的数据，以此增强训练集并改进模型性能。这只是一个基础示例，实际应用可能需要更复杂的数据管理和更多的模型调整策略。

Chen_Chance

关注

18
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
自训练：一种应对标注数据稀缺的半监督学习技术及其Python实现

自训练（Self-training）是一种简单而流行的半监督学习技术，常用于当标注数据稀缺但未标注数据丰富时。自训练的核心思想是利用少量标注数据训练一个初步的模型，然后使用这个模型预测未标注数据的标签。预测中最有信心的部分（通常是预测概率最高的）将被视为正确，加入训练集中，用于进一步训练模型。这个过程可以迭代多次，直到达到特定的性能标准或直到不再有显著的改进。
复制链接

扫一扫