我有段时间不知道如何判断特诊工程的好坏,结果盲目的进行特征工程而收不到结果。
那么,如何判断特征工程的好坏,这里还是有一些方法的:
1:在运用特征工程之前找一个基准的模型性能作为对比。
这个基准模型如何来找,基本的思路有这些:使用随机预测的值来进行评价,准确率大约在50%左右。使用较多的一类标签来作为预测值,准确率为:最多的一类标签/整体数目
2:运用特征工程。
3:观察运用特征工程以后的的模型性能和基准的模型的性能之间的关系。
4:如果性能的变化超过了某个阈值,那么我们就可以判断出来这个特征工程是好的。
5:改变的模型性能通常用百分比来衡量。 比如由40%的准确率提高到76%的准确率,那么我们说模型性能提高了90%。