我一直在尝试使用Python和scikit-learn工具包训练ML分类器 .
首先,我在分割数据集时应用了自己的阈值(例如int(len(X)* 0.75)),并在打印指标时得到了这个结果:
precision recall f1-score support
1 0.63 0.96 0.76 23
2 0.96 0.64 0.77 36
avg / total 0.83 0.76 0.76 59
然后我使用交叉验证,以便使用以下方法更精确地查看模型的准确性:scores = cross_validation.cross_val_score(X,y,cv = 10)并获得以下分数:
Cross_val_scores = [0.66666667 0.79166667 0.45833333 0.70833333 0.52173913
0.52173913 0.47826087 0.47826087 0.52173913 0.47826087]
准确度:0.56(标准偏差:/ - 0.22),其中精度等于平均值(分数) .
有人可以建议我如何正确解释这些分数?我理解在使用交叉验证时如何分割数据集以便在整个数据集范围内观察模型的准确性,但我想知道更多 .
例如,是否有一种方法可以分割它并获得尽可能高的准确度(例如0.79166667),如果可以的话我怎么能这样做?
我想这是因为我的数据集中存在一个分裂,即使用这些数据训练的模型可以产生更接近的预测,对吗?
有没有办法减少相对较高的标准偏差?
感谢您的时间 .