1、as cash,调整了某两类的客户的审批阈值
2、归一化是线性映射到0-1,z-score标准化是(x-μ)/δ,经过转换后均值为0,标准差为1,机器学习实战那本书讲岭回归的时候,标准化的方法是除以方差,这样一来标准化后的标准差就是1/δ
3、线性回归评价指标R2,是回归值平方和除以真实值平方和
4、mysql中datetime截取年月日有一个内置函数,data_format(datetime,'%Y-%m-%d'),可以直接按截取后的进行group by
5、中午思考两个问题多重共线性对于回归的影响,还有就是对于回归系数的检验问题
多重共线性对回归的影响:如果完全共线,不能求解,xTx不可逆
解释性会出现问题,有一个odds ratio之类的值,固定其他变量,变动其中一个变量,风险增大多少云云,如果有另外一个变量受到其影响,解释性上就 出现了问题
导致回归系数不稳定(我不理解)
回归系数的检验的原假设是w=0,用到是t检验,具体的t统计量表达式当然也和两个独立样本t检验不同
6、下午正琴姐帮我证明了下,我那个问题,但是提到了矩阵秩的公式,R(AB) <= MIN(R(A),R(B)),这个又需要证明,涉及到线性方程组的方法,我那部分有些概念又记不住了,又需要慢慢看一下
7、后面又复习了一下决策树,ID3决策树节点分裂的度量是信息增益,也就是熵差,而C4.5决策树采用的是信息增益率,CART树是二叉树,分裂度量采用的是gini,ID3只能处理标称型变量,不会重复使用变量进行划分,因为每次分化都是拿某一变量的全部类别分之,C4.5和CART都可以处理数值类变量,也可以重复使用之前的变量