- 博客(4)
- 收藏
- 关注
原创 不均衡分类问题 之 class weight & sample weight
分类问题中,当不同类别的样本量差异很大时,很容易影响分类结果。因此,需要进行校正。sklearn的做法是加权,加权就要涉及到class_weight和sample_weight,当不设置class_weight参数时,默认值是所有类别的权值为1。类型权重 class_weight字典类型,将类索引映射到权重值。对训练集里的每个类别加权,作用于损失函数(仅在训练过程中)。从而使模型更加关注样本数量少的类别。如果某类别的样本数多,那么它的权重就低,反之则权重就高.应用场景:第一种是误分类的代价很高。比
2020-05-25 20:52:35 8049 5
原创 连续特征离散化的必要性
在什么情况下将连续的特征离散化之后可以获得更好的效果?工业界中很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征,这样做的优点可以归纳为以下几点:1. 特征鲁棒性更强离散化后的特征对异常值有很强的鲁棒性。比如对于一个连续特征:年龄,如果直接将其作为特征,一个异常数据“年龄300岁”会给模型造成很大的干扰;如果离散为年龄>30为1,否则0。离散化后年龄300岁也会被归为0,如果训练数据中没有出现特征"年龄-300岁",那么在LR模型中,其权重对应于0,所以,即使
2020-05-21 20:59:08 492
原创 信用评分模型详解(上)之 评分卡模型
介绍完分箱算法后,就不得不介绍一下评分卡模型了。评分卡模型由于在业务层面具有良好的解释性,对数据挖掘方面(如风控)仍深受欢迎。目前,主流的评分卡模型仍以逻辑回归模型为主要模型。假设客户违约的概率为ppp,则正常的概率为1−p1-p1−p...
2020-05-21 20:41:21 3609 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人