2017.07.06-2017.07.07回顾 信息熵的坑 多重共线性实践

70 篇文章 0 订阅
29 篇文章 0 订阅

上周最后两天比较忙,没来得及写小结,这里补充一下

上周还是忙建模的事情,稳定性上进行一些新的探索,周四还面试了几个人,有些知识不用确实容易忘记,但是有什么办法呢,只有一遍一遍去理解,面试别人的时候也不用着急,也不要怕丢人,现场去推理,这样也可以检验对方的水平,就是个探讨,技术上没有什么丢人不丢人。

再次回忆了gini系数的计算,但是我有一个地方回忆错了,两分类的会根据样本数占划分前的比例进行加权求和,我之前的分析并没有考虑到不同样本量的影响

巩固了极大似然估计,推导出的logistic回归损失函数

香农信息熵昨天想了哈,我想到直接log2(P),其实叫做信息,然而香农熵是各个类别信息的期望所以,还要乘以一个∑plog(p),当他节点分化的时候处理方式就同gini,但是其实log(p)直接等权重加合也可以拿来度量不纯度啊,并没有想到有什么缺点,可以在这里留一个坑,以后在解决。

其他更多是建模中的体力活好像并没有什么可小结的。

最后拟合出来发现一些神奇的现象,直接系数是和单变量分析的时候是相反的,查询了下,最后的结论是多重共线性的影响,这种变量并不可取,而且这个变量在L1下会直接被缩减到0,如果用以前R那种对系数进行统计检验的方法,那个系数的p应该很大,接受原假设参数为0

然后我又尝试了下用一个高度相关的变量带进回归方程中,结果也很神奇,加入的高相关变量系数变成了0,所以果然不能选进模型,所以有一点可以肯定,logistic regression要解决多重共线性的问题,至于说具体作用机制,可以需要在数学层去理解!

看了下sklearn的logistic,其中一些参数不是很明白,但是大概这个机器学习的方法,讲究L1/L2惩罚,但是不讲究假设检验,逐步回归等方法,最优模型选择等,跟偏统计的工具不太一样,参数并没有太多可以控制的东西!


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值