2017.03.24回顾 归一化 标准化 R2 date_format 共线性 系数检验 决策树

20 篇文章 0 订阅
这篇博客回顾了数据分析中的关键概念,包括调整审批阈值、归一化与标准化的区别、R2评分的计算、MySQL中的日期格式化以及共线性对回归分析的影响。此外,还探讨了回归系数的检验和决策树算法,如ID3、C4.5和CART的不同分裂度量标准。
摘要由CSDN通过智能技术生成

1、as cash,调整了某两类的客户的审批阈值

2、归一化是线性映射到0-1,z-score标准化是(x-μ)/δ,经过转换后均值为0,标准差为1,机器学习实战那本书讲岭回归的时候,标准化的方法是除以方差,这样一来标准化后的标准差就是1/δ

3、线性回归评价指标R2,是回归值平方和除以真实值平方和

4、mysql中datetime截取年月日有一个内置函数,data_format(datetime,'%Y-%m-%d'),可以直接按截取后的进行group by

5、中午思考两个问题多重共线性对于回归的影响,还有就是对于回归系数的检验问题

多重共线性对回归的影响:如果完全共线,不能求解,xTx不可逆

                                             解释性会出现问题,有一个odds ratio之类的值,固定其他变量,变动其中一个变量,风险增大多少云云,如果有另外一个变量受到其影响,解释性上就                                              出现了问题

                                             导致回归系数不稳定(我不理解)

回归系数的检验的原假设是w=0,用到是t检验,具体的t统计量表达式当然也和两个独立样本t检验不同

6、下午正琴姐帮我证明了下,我那个问题,但是提到了矩阵秩的公式,R(AB) <= MIN(R(A),R(B)),这个又需要证明,涉及到线性方程组的方法,我那部分有些概念又记不住了,又需要慢慢看一下

7、后面又复习了一下决策树,ID3决策树节点分裂的度量是信息增益,也就是熵差,而C4.5决策树采用的是信息增益率,CART树是二叉树,分裂度量采用的是gini,ID3只能处理标称型变量,不会重复使用变量进行划分,因为每次分化都是拿某一变量的全部类别分之,C4.5和CART都可以处理数值类变量,也可以重复使用之前的变量



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值