机器学习笔记:特征处理——相关性分析GINI impurity

做相关性分析的方法有很多,这里分享几个相关性分析。

1、GINI系数

什么是基尼系数呢,其实就是P(Y|X)的一种变形,用人话就是说,利用多个标签,是否能区分模型,也就是相关度。

引入示例加深理解

X      Y
有钱  老板
有钱  傻逼
没钱  老板
没钱  傻逼
没钱  傻逼

如果他有钱的情况下,他是老板的概率为0.5(二分之一)

他没钱的情况下,他是老板的概率为0.33(三分之一)

所以他的GINI系数为 

\frac{1}{2}*(1-\frac{1}{2})+\frac{1}{3}*(1-\frac{1}{3})=\frac{17}{36}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值