为什么选择模型特征时预测能力并不是最重要的
可直接在橱窗里购买,或者到文末领取优惠后购买:
在保险业中,过去的索赔行为对未来的索赔行为具有很强的预测性。它可能是用于确定客户是否会提出索赔的唯一最具预测性的信息来源。但是,如果我们仅使用索赔历史来构建模型,它就不会很好。一般来说,模型特征应该来自各种不同的信息源。你的特征选择方法应该旨在从每个不同的信息源中创建最具预测性的特征的候选名单。
在本文中,我们将解释如何使用变量聚类和特征重要性的组合来创建这样的候选列表。我们还讨论了可能导致添加或删除特征的其他考虑因素。这些因素包括数据质量和可用性、特征稳定性、可解释性和法律/道德。最后,我们将讨论如何在特征选择框架中整合所有这些考虑因素。让我们首先准确定义特征选择的含义。
什么是特征选择?
在模型开发过程中,特征选择发生在特征工程之后、开始拟合模型之前。在特征工程期间,我们将原始数据转换为模型特征列表。根据你的问题,此列表可能很大(即超过 1000 个特征)。特征选择涉及将其缩小到一个候选列表(即 20-40 个特征)。根据你的模型,可能还有另一个特征选择阶