机器学习或深度学习方法处理振动信号，使用风力电机异音诊断数据集来构建一个智能检验算法数据预处理、特征提取、模型选择训练等

本文链接：https://blog.csdn.net/purple_love/article/details/145806038

采用机器学习或深度学习方法处理振动信号，使用风力电机异音诊断数据集来构建一个智能检验算法数据预处理、特征提取、模型选择训练等

采用机器学习或深度学习方法处理振动信号，使用风力电机异音诊断数据集来构建一个智能检验算法_ 在这里插入图片描述

jia假设你有下面这个数据集在这里插入图片描述

风力电机异音诊断数据集

【数据背景】在风力电机生产线上普遍采用人工听音的方法分辨良、次品，不仅成本高，而且重复、单调的听音工作极易引起人员疲劳，容易出现误判，若个别不良品混入整批成品中，会给工厂带来严重经济损失，甚至严重影响产品声誉。基于加速度传感器采集的振动信号，利用机器学习、深度学习等人工智能技术，设计智能检验的算法，要求算法对故障电机不能有漏识别，在召回100%的情况下，尽量提高预测准确率，以达到替代人工质检的目的。在这里插入图片描述

【数据描述】数据集包含2个文件，Motor_tain.zip和Motor_testP.zip：
Motor_tain.zip：用于训练的采集数据，其中文件夹“正样本”包含30个异常电机的数据样本，文件夹“负样本”包含500个正常电机的数据样本；
Motor_testP.zip：用于测试的采集数据，包含500个电机的数据样本；

【文件说明】采集数据时是分别对电机正转、反转时的振动信号进行采集。也就是说每台电机有两条数据，其中F代表正转，B代表反转。每条数据包含两路振动信号，数据文件命名规则：编号_旋转方向.csv。
🔥计算机视觉、图像处理、毕业辅导、作业帮助、代码获取，远程协助，代码定制，私聊会回复!
🚀B站项目实战：https://space.bilibili.com/364224477
😄 如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏
📂QQ+加：673276993
🤵‍♂代做需求：@个人主页

以下文字及代码仅供参考。

为了使用风力电机异音诊断数据集来构建一个智能检验算法，我们将采用机器学习或深度学习方法处理振动信号。下面是一个详细的流程指南，包括数据预处理、特征提取、模型选择、训练、评估和部署。

以下文字及代码仅供参考。

1. 数据预处理

解压缩数据

首先解压缩Motor_train.zip和Motor_testP.zip文件，以访问CSV格式的数据文件。

unzip Motor_train.zip -d Motor_train
unzip Motor_testP.zip -d Motor_testP

加载数据

编写Python脚本来加载并整理数据，确保每台电机的正转（F）和反转（B）数据都被正确读取，并且标签被正确分配。

import pandas as pd
import os
from sklearn.preprocessing import LabelEncoder

def load_data(path):
    data = []
    labels = []

    for root, dirs, files in os.walk(path):
        for file in files:
            if file.endswith('.csv'):
                df = pd.read_csv(os.path.join(root, file))
                data.append(df.values)
                
                # 根据文件夹名称确定标签
                label = 'normal' if '负样本' in root else 'abnormal'
                labels.append(label)

    return data, labels

# 加载训练数据
X_train, y_train = load_data('Motor_train')

# 加载测试数据
X_test, _ = load_data('Motor_testP')  # 测试集中没有提供标签

# 对标签进行编码
le = LabelEncoder()
y_train_encoded = le.fit_transform(y_train)

2. 特征提取

考虑到振动信号是时序数据，我们可以从每个信号中提取时间域和频域特征。这里我们使用简单的统计特征作为示例：

import numpy as np

def extract_features(signal):
    features = {
        'mean': np.mean(signal),
        'std': np.std(signal),
        'max': np.max(signal),
        'min': np.min(signal),
        'rms': np.sqrt(np.mean(signal**2)),  # 均方根值
        'skewness': pd.Series(signal).skew(),
        'kurtosis': pd.Series(signal).kurt()
    }
    return features

# 提取所有训练数据的特征
features_train = [extract_features(signal) for signal in X_train]
X_train_features = pd.DataFrame(features_train)

# 提取所有测试数据的特征
features_test = [extract_features(signal) for signal in X_test]
X_test_features = pd.DataFrame(features_test)

3. 模型选择与训练

对于二分类问题，可以选择多种模型。由于你希望在召回率100%的情况下尽量提高预测准确率，可以考虑以下几种模型：

在这里，我们将使用随机森林作为示例：

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix

# 分割训练集为训练和验证集
X_train_split, X_val_split, y_train_split, y_val_split = train_test_split(
    X_train_features, y_train_encoded, test_size=0.2, stratify=y_train_encoded, random_state=42)

# 初始化并训练随机森林模型
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train_split, y_train_split)

# 验证模型性能
y_pred = rf_model.predict(X_val_split)
print(confusion_matrix(y_val_split, y_pred))
print(classification_report(y_val_split, y_pred))

4. 调整阈值以确保召回率100%

为了保证故障电机不被漏识，可以在验证集上调整决策阈值，确保召回率为100%，即使这可能导致一些正常电机被错误地分类为异常。

from sklearn.metrics import precision_recall_curve

# 获取预测概率
y_scores = rf_model.predict_proba(X_val_split)[:, 1]

# 计算精确率-召回率曲线
precision, recall, thresholds = precision_recall_curve(y_val_split, y_scores)

# 找到最接近召回率100%的阈值
threshold_100_recall = thresholds[np.argmax(recall &gt;= 1.0)]

# 使用找到的阈值进行最终预测
final_predictions = (rf_model.predict_proba(X_test_features)[:, 1] &gt;= threshold_100_recall).astype(int)

5. 模型评估与优化

评估模型在测试集上的表现，并根据需要进一步优化模型参数或特征工程。

# 如果有测试集的真实标签，可以在此处评估模型性能
# print(classification_report(true_labels, final_predictions))

6. 模型部署

一旦模型训练完成并且达到了满意的性能水平，就可以将其部署到实际的应用环境中。这可能涉及到将模型导出为ONNX格式或其他适合部署的格式，以及编写相应的API接口来接收实时振动信号输入并返回检测结果。