CWRU轴承数据集处理之重叠采样
一、问题引入
最近看一篇论文提到了数据集增强,增强的方式是重叠采样,其方法描述如下:
三、重叠采样原理
重叠采样的原理与1Dconv的原理类似,其主要参数是窗口大小和步幅,用论文中的例子来验证为:
(
60000
−
2048
)
/
1
+
1
=
57953
(60000-2048)/1+1=57953
(60000−2048)/1+1=57953
公式如下:
三、以0.007损失直接内圈故障文件105.mat为例实现重叠采样
CWRU数据集的文件描述如下
105.mat文件的Drive End Bearing Fault Data数据共有121265个点,取窗口大小为1024,步幅为512,,向下取整,用上面的公式估算我们可得到的样本总数是:
(
121265
−
1024
)
/
512
+
1
=
235
(121265-1024)/512+1=235
(121265−1024)/512+1=235
代码如下
'''
# For 12k Drive End Bearing Fault Data
from scipy.io import loadmat
axisname="105.mat"
label=1
stride=512
signal_size=1024
filename=r'C:\Users\Administrator\Desktop\cwru\12k Drive End Bearing Fault Datat'+'\\'+axisname
axis = ["_DE_time", "_FE_time", "_BA_time"]
datanumber = axisname.split(".") #将105.mat分割为105与mat取105
if eval(datanumber[0]) < 100:
realaxis = "X0" + datanumber[0] + axis[0] #可组成X105_DE_time
else:
realaxis = "X" + datanumber[0] + axis[0]
fl = loadmat(filename)[realaxis]
data = []
lab =[]
n=(int)((fl.size-signal_size)/stride+1)
start, end = 0, 0
#贴标签,使用重叠采样,采样数量为 (点数-采样窗口大小)/步长+1
for i in range(n):
start = i * stride
end = signal_size + i * stride
data.append(fl[start:end])
lab.append(label)