2023.10.9学习-迁移学习

最新推荐文章于 2024-10-23 20:00:37 发布

q浅夜

最新推荐文章于 2024-10-23 20:00:37 发布

阅读量223

点赞数 1

文章标签：学习迁移学习机器学习

本文链接：https://blog.csdn.net/qianyeguiji/article/details/133721762

版权

本文介绍了迁移学习的不同策略，如特征提取、结构引用和部分训练，以及在线学习如何适应新数据。通过Keras实例展示了迁移学习模型的应用，特别是在回归任务中的效果。同时提到了半监督学习和伪标签学习的概念，以及在实际项目中的应用和优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2023.10.9学习

人工智能基础学习

迁移学习（transfer learning）

以已经训练好的模型A为起点，在新场景中，根据新数据建立模型B

目的：将某个领域或任务上学习到的知识或模式，应用到不同但相关的领域或问题中

模型A存储了模型结构、权重系数；模型B基于新数据，实现了对模型A的部分结构或权重系数的更新

在这里插入图片描述

（1）特征提取

使用模型A，移除输出层，提取目标特征信息。

在任务相似度高、新数据少的情况下使用，保留原模型的大部分结构和权重系数。

（2）结构引用

使用模型A的结构，重新或二次训练权重系数参数。

在任务相似度高、新数据多的情况下使用，可基于原有结构重新训练

（3）部分训练

使用模型A的结构，重新训练部分层的权重系数参数。

在任务相似度低、新数据少的情况下使用，此时需要训练的参数变多。
在这里插入图片描述

迁移学习的优点：

对数据样本的需求量较小，不再需要特别大量的数据作支撑
因为待更新的参数少，训练速度快，耗时小
若迁移的模型为以证实的效果较好的模型，则迁移学习往往比搭建新模型的表现更好

在线学习（online learning）

给已经训练好的模型输入新数据，模型将进行更新，适应新数据的趋势。

目的：针对新数据，在不需要对全新数据集进行再次训练的基础上，实现模型更新。

适合场景：有连续的数据流

特点：不改变模型结构，根据新数据更新权重系数
$\begin {cases} temp_{\theta_j}=\theta_j-\alpha ×(y_{predict}-y)×x_j \\ \theta_j=temp_{\theta_j} \end{cases}$
（(x, y)为新数据，θ_j为模型系数）

半监督学习（Semi-Supervised Learning）

高质量数据：

正常数据（噪声少）
包含类别完整
标签标准一致且正确

半监督学习：监督学习与无监督学习相结合的一种学习方法，它同时利用有标记样本与无标记样本进行学习。

目的：在标记样本有限的情况下，尽可能识别出总样本的共同特性。

伪标签学习：

用有标签数据训练一个分类器，然后用这个分类器对无标签数据进行分类，产生伪标签（pseudo label），按一定顺序挑选出认为分类正确的无标签样本，将其与有标签样本作为数据对分类器进行训练。

代码：迁移学习回归模型

迁移后只迭代了30次，大幅降低迭代次数

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from keras.models import Sequential
from keras.layers import Dense
import joblib

data = pd.read_csv('transfer_data.csv')
print(data.head())

x = data.loc[:, 'x']
y = data.loc[:, 'y']

fig1 = plt.figure()
plt.scatter(x, y)
plt.show()

x = np.array(x).reshape(-1, 1) # 多行1列
print(x.shape, y.shape)  # (100, 1) (100,)

# 创建mlp模型
model1 = Sequential()
model1.add(Dense(units=50, input_dim=1, activation='relu'))
model1.add(Dense(units=50, activation='relu'))
model1.add(Dense(units=1, activation='linear'))

model1.compile(optimizer='adam', loss='mean_squared_error')

model1.summary()

model1.fit(x, y, epochs=400)

y_predict = model1.predict(x)

fig2 = plt.figure()
plt.scatter(x, y)
plt.plot(x, y_predict, 'r')
plt.title('epochs = 400')
plt.show()

# 将模型存储到本地
joblib.dump(model1, 'model1.m')

# 模型加载
model2 = joblib.load('model1.m')

data_test = pd.read_csv('transfer_data2.csv')
print(data_test.head())

x_test = data_test.loc[:, 'x']
y_test = data_test.loc[:, 'y']

x_test = np.array(x_test).reshape(-1, 1)
print(x_test.shape)

y_test_predict = model2.predict(x_test)

fig3 = plt.figure()
plt.scatter(x, y, label='data')
plt.scatter(x_test, y_test, label='data_test')
plt.plot(x_test, y_test_predict, 'r')
plt.legend()
plt.title('test')
plt.show()

# 迁移学习
model2.fit(x_test, y_test, epochs=30)

y2_test_predict = model2.predict(x_test)

fig4 = plt.figure()
plt.scatter(x, y, label='data')
plt.scatter(x_test, y_test, label='data_test')
plt.plot(x_test, y2_test_predict, 'r')
plt.legend()
plt.title('transfer epochs=30')
plt.show()

在这里插入图片描述