首先要强调一点,一维卷积的含义是卷积核移动的方向是一维的,数据可以是二维的,很多初学者容易混淆这个概念
一维卷积也能对序列数据进行训练,相比于RNN网络训练速度更快并且能够达到和RNN近似的预测效果
下边结合tensorflow代码说明一下一维卷积处理序列数据的实现过程:
1. 引入依赖
from tensorflow import keras
from tensorflow.keras import layers
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
2. 数据预处理
读取数据(所需数据在文章结尾下载):
data = pd.read_csv('train.csv')
特征编码:
factorize函数会将特征的所有的可能值编码成数字,每一种可能值对应一个数字;函数返回两个数组
一个存储特征所有可能值的序号,一个存储所有可能值
labels=pd.factorize(data.species)[0]
x = data[data.columns[2:]] # 前两列丢弃
划分训练集和测试集:
x = data[data.columns[2:]] # 前两列丢弃
train_x,test_x,train_y,test_y=train_test_split(x,labels)
print(train_x)
对训练集和测试集进行标准化:
1.求训练集的均值和方差,然后使用训练集的均值和方差对训练集和测试集数据进行标准化
2.然后对训练集和测试集扩充维度,使数据的每个特征都能有多个通道
mean=train_x.mean(axis=0)
std=train_x.std(axis=0)
train_x=(train_x-mean)/std
test_x=(test_x-mean)/std
train_x=np.expand_dims(train_x,-1)
test_x=np.expand_dims(test_x,-1)
3. 建立模型
模型概述:
->一维卷积层->池化层->Dropout层-> …
->一维卷积层->池化层->Dropout层->
->全局平均池化->Dropout层->
->全连接层-> … 结束
上边的网络结构大致可以分为两部分,全局平均池化之前的卷积层用于特征提取,而全局平均池化层之后的全连接层结构本质上就是一个分类器
注意:
- 第一个卷积结构要声明输入数据的结构
- 一维卷积一般使用relu激活函数
- 卷积核数量一般为2^n,并且逐层增加
- 使用dropout层防止模型过拟合
- 全连接层最后的输出要和分类数相同 并使用softmax对模型输出进行归一化
- 想要继续增加网络拟合能力,可以增加网络深度并增加残差网络结构防止网络过深导致的梯度消失问题
建立网络的代码如下:
# 一维卷积输入格式 samples feature 每个特征的通道数
model=keras.Sequential()
model.add(keras.layers.Conv1D(32,7,input_shape=(train_x.shape[1:]),activation='relu',padding='same')) # 32 为卷积核个数 7为卷积核长度
model.add(keras.layers.Conv1D(32,7,activation='relu',padding='same'))
model.add(keras.layers.MaxPooling1D(3)) # 讲妹每个feature map 中的三个特征合成一个
model.add(keras.layers.Dropout(0.5))
model.add(keras.layers.Conv1D(64,7,activation='relu',padding='same'))
model.add(keras.layers.Conv1D(64, 7, activation='relu', padding='same'))
model.add(keras.layers.MaxPooling1D(3)) # 讲妹每个feature map 中的三个特征合成一个
model.add(keras.layers.Dropout(0.5))
model.add(keras.layers.Conv1D(128,7,activation='relu',padding='same'))
model.add(keras.layers.Conv1D(128, 7, activation='relu', padding='same'))
model.add(keras.layers.MaxPooling1D(3)) # 讲妹每个feature map 中的三个特征合成一个
model.add(keras.layers.Dropout(0.5))
model.add(keras.layers.Conv1D(256,7,activation='relu',padding='same'))
model.add(keras.layers.Conv1D(256, 7, activation='relu', padding='same'))
model.add(keras.layers.MaxPooling1D(3)) # 讲妹每个feature map 中的三个特征合成一个
model.add(keras.layers.Dropout(0.5))
model.add(keras.layers.GlobalAveragePooling1D())
model.add(keras.layers.Dropout(0.5))
model.add(keras.layers.Dense(256)) # 讲妹每个feature map 中的三个特征合成一个
model.add(keras.layers.Dropout(0.5))
model.add(keras.layers.Dense(99,activation='softmax'))
print(model.summary())
# 可进一步增加网络深度 并使用残差网络结构避免梯度消失
4. 编译并训练模型
对于序列数据, 一般RMSprop函数作为优化函数;由于是多分累问题且标签项没有使用one-hot编码,因此使用
sparse_categorical_crossentropy
(多元交叉熵)损失函数
(深入了解RMSprop函数请参考这篇文章->#深度解析# SSR,MSE,RMSE,MAE、SSR、SST、R-squared、Adjusted R-squared误差的区别)
代码如下:
model.compile(optimizer=keras.optimizers.RMSprop(),loss='sparse_categorical_crossentropy',metrics=['acc']) #非one-hot编码使用sparse
# history = model.fit(train_x, train_y, epochs=600, batch_size=128, validation_data=(test_x, test_y))
history = model.fit(train_x, train_y, epochs=1000, validation_data=(test_x, test_y)) # 每个epoch训练所有数据
plt.plot(history.epoch,history.history['acc'],'y',label='training')
plt.plot(history.epoch,history.history['val_acc'],'b',label='test')
plt.legend()
plt.show()