Spark 机器学习总结(一) 一、密集和稀疏向量一个向量(1.0,0.0,3.0)它有两种表示的方法:密集向量(dence):[1.0,0.0,3.0] 其和一般的数组无异;稀疏向量(sparse):(3,[0,2],[1.0,3.0]) 其表示的含义(向量大小,序号,值) 序号从0开始。 参考:1. https://yq.aliyun.com...
特征重要度整理 - 随机森林、逻辑回归 一、 随机森林输出特征重要度 用随机森林进行特征重要性评估的思想其实很简单,通俗来讲就是看每个特征在随机森林中的每颗树上做了多大的贡献,取平均值,然后比较特征之间的贡献大小。 常见的计算方法有两种,一种是平均不纯度的减少(mean decrease impurity),常用gini /entropy /information gain测量,现在sklearn中用的就是...