数据处理之统计筛选符合数量的固定特征值
在处理数据的过程中,我们往往会对特征值进行相应的处理,有些样本在机器学习的过程中往往是作用不大的,比如出现次数很少的特征,在机器学习的学习过程中往往会预测结果产生一些影响,这时候我们就需要删除掉相应的样本了。
import pandas as pd
def count():
"""
去除数据中某一特征重复度较低的样本
:return:
"""
# 读取书记
data =pd.read_csv("./kaggle6773/2.csv")
print("原始数据的结果为:", "\n", data)
# 将“w”进行分组并进行分开计数
w_count = data.groupby("w").count()
print("分组后的结果为:", "\n", w_count)
# 设定去除特征“w”出现少于特定次数的样本,并将w放回样本特征一列中
a = w_count[w_count.X > 2].reset_index()
print("筛选过后数据的结果为:", "\n", a)
# 在原始数据中进行搜索,并保留符合要求的样本
data = data[data["w"].isin(a.w)]
print("最终数据的结果为:", "\n", data)
运行结果如下:
原始数据的结果为:
w C X d
0 1 60 20 30
1 2 50 15 10
2 3 30 17 15
3 1 50 20 30
4 1 60 20 50
5 1 60 50 30
分组后的结果为:
C X d
w
1 4 4 4
2 1 1 1
3 1 1 1
筛选过后数据的结果为:
w C X d
0 1 4 4 4
最终数据的结果为:
w C X d
0 1 60 20 30
3 1 50 20 30
4 1 60 20 50
5 1 60 50 30