数据处理之统计筛选符合数量的固定特征值

本文介绍了如何通过统计筛选数据中出现次数少于特定阈值的特征,以优化机器学习模型,确保预测结果的准确性。使用pandas处理CSV数据,对'w'特征进行分组计数,然后删除频率低的样本,最终保持对模型有益的数据集。
摘要由CSDN通过智能技术生成

数据处理之统计筛选符合数量的固定特征值

在处理数据的过程中,我们往往会对特征值进行相应的处理,有些样本在机器学习的过程中往往是作用不大的,比如出现次数很少的特征,在机器学习的学习过程中往往会预测结果产生一些影响,这时候我们就需要删除掉相应的样本了。

import pandas as pd


def count():
    """
    去除数据中某一特征重复度较低的样本
    :return:
    """
    # 读取书记
    data =pd.read_csv("./kaggle6773/2.csv")
    print("原始数据的结果为:", "\n", data)

    # 将“w”进行分组并进行分开计数
    w_count = data.groupby("w").count()
    print("分组后的结果为:", "\n", w_count)

    # 设定去除特征“w”出现少于特定次数的样本,并将w放回样本特征一列中
    a = w_count[w_count.X > 2].reset_index()
    print("筛选过后数据的结果为:", "\n", a)

    # 在原始数据中进行搜索,并保留符合要求的样本
    data = data[data["w"].isin(a.w)]
    print("最终数据的结果为:", "\n", data)

运行结果如下:

原始数据的结果为: 
    w   C   X   d
0  1  60  20  30
1  2  50  15  10
2  3  30  17  15
3  1  50  20  30
4  1  60  20  50
5  1  60  50  30
分组后的结果为: 
    C  X  d
w         
1  4  4  4
2  1  1  1
3  1  1  1
筛选过后数据的结果为: 
    w  C  X  d
0  1  4  4  4
最终数据的结果为: 
    w   C   X   d
0  1  60  20  30
3  1  50  20  30
4  1  60  20  50
5  1  60  50  30
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值