自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

SkullSky的博客

12月 11月 10月 09月 07月 06月 05月 04月

原创不均衡分类问题之 class weight & sample weight

分类问题中，当不同类别的样本量差异很大时，很容易影响分类结果。因此，需要进行校正。sklearn的做法是加权，加权就要涉及到class_weight和sample_weight，当不设置class_weight参数时，默认值是所有类别的权值为1。类型权重 class_weight字典类型，将类索引映射到权重值。对训练集里的每个类别加权，作用于损失函数（仅在训练过程中）。从而使模型更加关注样本数量少的类别。如果某类别的样本数多，那么它的权重就低，反之则权重就高.应用场景：第一种是误分类的代价很高。比

2020-05-25 20:52:35 8049 5

原创连续特征离散化的必要性

在什么情况下将连续的特征离散化之后可以获得更好的效果？工业界中很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征，这样做的优点可以归纳为以下几点：1. 特征鲁棒性更强离散化后的特征对异常值有很强的鲁棒性。比如对于一个连续特征：年龄，如果直接将其作为特征，一个异常数据“年龄300岁”会给模型造成很大的干扰；如果离散为年龄>30为1，否则0。离散化后年龄300岁也会被归为0，如果训练数据中没有出现特征"年龄-300岁"，那么在LR模型中，其权重对应于0，所以，即使

2020-05-21 20:59:08 492

原创信用评分模型详解（上）之评分卡模型

介绍完分箱算法后，就不得不介绍一下评分卡模型了。评分卡模型由于在业务层面具有良好的解释性，对数据挖掘方面（如风控）仍深受欢迎。目前，主流的评分卡模型仍以逻辑回归模型为主要模型。假设客户违约的概率为ppp，则正常的概率为1−p1-p1−p...

2020-05-21 20:41:21 3609 2

原创特征离散化（五）之评分卡最优分箱

特征离散化之卡方分箱（三）1. 卡方分箱之评分卡最优分箱

2020-05-18 19:50:00 3820 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

SkullSky CSDN认证博客专家 CSDN认证企业博客

码龄9年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

59: 原创

7万+: 周排名

146万+: 总排名

29万+: 访问

: 等级

2843: 积分

125: 粉丝

277: 获赞

85: 评论

979: 收藏

私信

关注

热门文章

分类专栏

最新评论

聚类之 MeanShift
不会helloworld！: 这个虚拟大佬坐标就是区域内所有小弟取均值啊
【图像处理】海森矩阵
Superstarimage: 佬，请问如果灰度图像的二阶偏导数不存在，例如山脊和峡谷，那么对应的海森矩阵还存在吗
特征离散化（三）之最小熵分箱
Liang.ZL: 可以给发一下完整的代码吗
特征离散化（四）之 bestKS分箱
jsy2236: 你都sort_index了，那不起步也是n logn 嘛
聚类之 MeanShift
qq_52292510: 第一个正式大佬是（4/3,1）还是（5/3,1）文中未看到（5/3,1）是怎么计算来的呀

最新文章

提示

确定要删除当前文章？

取消删除