Pytorch学习笔记（十）——CWRU轴承数据集对原始.mat文件进行重叠采样

酒与花生米

已于 2022-06-13 11:01:59 修改

阅读量5.3k

点赞数 12

分类专栏： Pytorch学习笔记文章标签： pytorch 人工智能 python

于 2021-12-20 13:03:40 首次发布

本文链接：https://blog.csdn.net/qq_23345187/article/details/122039020

版权

Pytorch学习笔记专栏收录该内容

17 篇文章

订阅专栏

本文介绍了一种用于数据集增强的技术——重叠采样，并以CWRU轴承故障数据集为例，详细解释了如何通过调整窗口大小和步幅来增加训练样本的数量。文中提供了一个具体的案例分析，即对内圈故障文件105.mat进行重叠采样的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、问题引入

最近看一篇论文提到了数据集增强，增强的方式是重叠采样，其方法描述如下：
在这里插入图片描述

三、重叠采样原理

重叠采样的原理与1Dconv的原理类似，其主要参数是窗口大小和步幅，用论文中的例子来验证为：
在这里插入图片描述
$（ 60000 - 2048 ） / 1 + 1 = 57953$
公式如下：

三、以0.007损失直接内圈故障文件105.mat为例实现重叠采样

CWRU数据集的文件描述如下
在这里插入图片描述

在这里插入图片描述

105.mat文件的Drive End Bearing Fault Data数据共有121265个点，取窗口大小为1024，步幅为512，,向下取整，用上面的公式估算我们可得到的样本总数是：
$（ 121265 - 1024 ） / 512 + 1 = 235$

代码如下

 '''
 # For 12k Drive End Bearing Fault Data
 from scipy.io import  loadmat
    axisname="105.mat"
    label=1
    stride=512
    signal_size=1024
    filename=r'C:\Users\Administrator\Desktop\cwru\12k Drive End Bearing Fault Datat'+'\\'+axisname
    axis = ["_DE_time", "_FE_time", "_BA_time"]
    datanumber = axisname.split(".") #将105.mat分割为105与mat取105
    if eval(datanumber[0]) < 100:
        realaxis = "X0" + datanumber[0] + axis[0]  #可组成X105_DE_time
    else:
        realaxis = "X" + datanumber[0] + axis[0]
      
    fl = loadmat(filename)[realaxis]
    data = []
    lab =[]
    n=(int)((fl.size-signal_size)/stride+1)
    start, end = 0, 0
    #贴标签，使用重叠采样，采样数量为 (点数-采样窗口大小)/步长+1
    for i in range(n):
        start = i * stride
        end = signal_size + i * stride
        data.append(fl[start:end])
        lab.append(label)