1、判断数据的特征之间是线性/非线性?
变量之间是线性关系,模型考虑选择:线性回归、岭回归;
变量之间是非线性关系,模型考虑选择:多项式回归、支持向量回归 、树模型(如 XGBoost、随机森林)。
2、模型的可解释是否有要求?
如果模型的可解释性很重要(例如在医疗或金融领域),简单模型(如线性回归)或树模型(如决策树)可能更合适。
复杂模型(如神经网络)虽然性能可能更好,但通常较难解释。
3、通过上述两点大概推测合适的模型,使用默认参数拟合数据,逐一校验上述模型。对于其中表现优秀的模型进行交叉验证,以防止过拟合。最后通过grid search确定表现优秀的模型的参数。