自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 不均衡分类问题 之 class weight & sample weight

分类问题中,当不同类别的样本量差异很大时,很容易影响分类结果。因此,需要进行校正。sklearn的做法是加权,加权就要涉及到class_weight和sample_weight,当不设置class_weight参数时,默认值是所有类别的权值为1。类型权重 class_weight字典类型,将类索引映射到权重值。对训练集里的每个类别加权,作用于损失函数(仅在训练过程中)。从而使模型更加关注样本数量少的类别。如果某类别的样本数多,那么它的权重就低,反之则权重就高.应用场景:第一种是误分类的代价很高。比

2020-05-25 20:52:35 8049 5

原创 连续特征离散化的必要性

在什么情况下将连续的特征离散化之后可以获得更好的效果?工业界中很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征,这样做的优点可以归纳为以下几点:1. 特征鲁棒性更强离散化后的特征对异常值有很强的鲁棒性。比如对于一个连续特征:年龄,如果直接将其作为特征,一个异常数据“年龄300岁”会给模型造成很大的干扰;如果离散为年龄>30为1,否则0。离散化后年龄300岁也会被归为0,如果训练数据中没有出现特征"年龄-300岁",那么在LR模型中,其权重对应于0,所以,即使

2020-05-21 20:59:08 492

原创 信用评分模型详解(上)之 评分卡模型

介绍完分箱算法后,就不得不介绍一下评分卡模型了。评分卡模型由于在业务层面具有良好的解释性,对数据挖掘方面(如风控)仍深受欢迎。目前,主流的评分卡模型仍以逻辑回归模型为主要模型。假设客户违约的概率为ppp,则正常的概率为1−p1-p1−p...

2020-05-21 20:41:21 3609 2

原创 特征离散化(五) 之 评分卡最优分箱

特征离散化 之 卡方分箱(三)1. 卡方分箱 之 评分卡最优分箱

2020-05-18 19:50:00 3820 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除