这是今年
现在忘得一干二净,:)
第一章
信息熵更精细(计算的时候后有对数。会计算比较慢)。基尼指数则会比较大。所以用信息熵生成的决策树比较精细,在高噪音的数据上,往往会导致过拟合。
R2越接近1越好
MSE 越小越好 ,scoring ="neg_mean_squared_error"则是负的MSE
第二章
在python里面能不写循环就不写了
可是模型里面属性的查看只能用遍历了,因为导成pandas,就变成字符串了,就不能一个一个的遍历了
先编译运行代码,然后光标移动到方法上面,按shift+tab即可查看方法的参数说明,以及返回值。
第三章
axis=0 1 搞不明白,就先整个备份 inplace=False,改对了,再True覆盖
相较于 pd.range, numpy.linspace 是不知道步长多少的时候来用的(开始,结尾,个数)
嵌入法小慢
第四章
惰性对象 [*]
先进行降维,再升维,可以去噪。
直接上案例,实操了
过了一下第一章的泰坦尼克号kaggle案例代码。熟悉但陌生,就像那些算法题的代码一样。