数据处理之统计筛选符合数量的固定特征值

小小小~

已于 2022-03-27 11:21:11 修改

阅读量182

点赞数

分类专栏： python基础文章标签： python 数据分析机器学习

于 2021-08-16 17:47:53 首次发布

本文链接：https://blog.csdn.net/qq_52302919/article/details/119738286

版权

python基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文介绍了如何通过统计筛选数据中出现次数少于特定阈值的特征，以优化机器学习模型，确保预测结果的准确性。使用pandas处理CSV数据，对'w'特征进行分组计数，然后删除频率低的样本，最终保持对模型有益的数据集。

摘要由CSDN通过智能技术生成

数据处理之统计筛选符合数量的固定特征值

在处理数据的过程中，我们往往会对特征值进行相应的处理，有些样本在机器学习的过程中往往是作用不大的，比如出现次数很少的特征，在机器学习的学习过程中往往会预测结果产生一些影响，这时候我们就需要删除掉相应的样本了。

import pandas as pd


def count():
    """
    去除数据中某一特征重复度较低的样本
    :return:
    """
    # 读取书记
    data =pd.read_csv("./kaggle6773/2.csv")
    print("原始数据的结果为：", "\n", data)

    # 将“w”进行分组并进行分开计数
    w_count = data.groupby("w").count()
    print("分组后的结果为：", "\n", w_count)

    # 设定去除特征“w”出现少于特定次数的样本，并将w放回样本特征一列中
    a = w_count[w_count.X > 2].reset_index()
    print("筛选过后数据的结果为：", "\n", a)

    # 在原始数据中进行搜索，并保留符合要求的样本
    data = data[data["w"].isin(a.w)]
    print("最终数据的结果为：", "\n", data)

运行结果如下：

原始数据的结果为： 
    w   C   X   d
0  1  60  20  30
1  2  50  15  10
2  3  30  17  15
3  1  50  20  30
4  1  60  20  50
5  1  60  50  30
分组后的结果为： 
    C  X  d
w         
1  4  4  4
2  1  1  1
3  1  1  1
筛选过后数据的结果为： 
    w  C  X  d
0  1  4  4  4
最终数据的结果为： 
    w   C   X   d
0  1  60  20  30
3  1  50  20  30
4  1  60  20  50
5  1  60  50  30