统计更加在乎的是模型应用的完善,即数据必须要符合模型的假定。
任何一个模型都有假定。数据挖掘中,如决策树和神经网络做的时候很少会提到假定,实际上他们的假定和回归差不多。很多时候,用R或者SAS建立一个决策树会发现效果不好,效果不好的原因就是你的数据不符合假定。决策树这种模型其实是没有底蕴的,即没有体系帮忙进行检验,所以这种模型在建模之前一定要对数据进行预处理,让数据去符合假定。如果想建好一个模型,在建模之前需要面对下面这些点:
- 模型的可解释性:建出的模型的关系必须是和实际业务有联系的,如果你的模型的可解释性关系是比较荒谬、不符合常识的,那么即使模型在技术层面非常好也是无用的
- 模型和技术的假定一定要自己清楚
- 模型能否抵御维度诅咒: