PU数据集CSV文件(格式已经准备好)PU数据集转CSV

很多做轴承故障诊断的小伙伴应该都遇到,PU数据集是.mat文件,里面有很多层。对于大多数新手来说,转为.csv文件容易遇到很多问题。这里直接给大家准备好啦。

转出为振动信号,所有的数据都有。

点击链接获取:https://m.tb.cn/h.TvkY6Wv?tk=WXoNelVPLnq 

### PU 数据集介绍 PU 学习(Positive and Unlabeled learning),即正样本和未标记样本的学习,是一种特殊类型的半监督学习方法。在这种设置下,只有正类标签被提供给算法,而负类则完全未知或者混杂在未标注的数据集中[^1]。 对于 PU 数据集而言,其主要特点在于只有一部分数据被认为是已知的正例,其余大部分都是来自混合分布的未标记样例集合。这些未标记的例子可能既包含真正的反面案例也可能隐藏着额外正面情况。因此,在构建 PU 数据库时,通常会遵循如下原则: - **正样本**:明确标识为属于目标分类的对象; - **未标记样本**:不确定类别归属的一组对象,其中一部分可能是正向实例也有可能是负面实例。 这种结构使得 PU 数据集非常适合处理那些难以获得全面标注的情况,比如金融欺诈检测、医疗诊断等领域内的风险控制问题。 ### 应用实例分析 以信贷审批为例来说明 PU 学习的应用场景。银行希望开发一种能够有效识别潜在违约客户的预测模型,但由于成本高昂以及隐私保护等原因,并不是所有的客户记录都能得到详尽审查并打上相应标签。此时可以采用 PU 方法来进行建模尝试——利用一小批已经确认过良好还款历史的优质借款人作为 “正样本”,加上大量未经审核的新申请者资料组成 “未标记样本”。 通过这种方式建立起来的风险评估体系不仅能够在一定程度上弥补传统全量标注方式所带来的局限性,还具备更高的灵活性与适应能力。当面对不断变化市场环境下的新型威胁挑战时,基于 PU 的解决方案往往能展现出更优的表现特性。 ```python import numpy as np from sklearn.model_selection import train_test_split # 假设我们有一个二元分类任务的数据集 X 和 y, # 其中 y 中有两类:0 表示未标记, 1 表示正样本 X_positive = ... # 已知的正样本特征矩阵 y_positive = np.ones(len(X_positive)) # 对应的标签全部置为 1 X_unlabeled = ... # 未标记样本特征矩阵 y_unlabeled = np.zeros(len(X_unlabeled)) # 初始假设所有未标记都为负类 # 合并两个子集形成完整的训练集 X_train = np.vstack((X_positive, X_unlabeled)) y_train = np.hstack((y_positive, y_un labeled)) # 将数据划分为训练/测试两部分 X_train_final, X_test, y_train_final, y_test = train_test_split( X_train, y_train, test_size=0.2, random_state=42) print("Training set shape:", X_train_final.shape) print("Testing set shape:", X_test.shape) ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值