- 博客(2)
- 收藏
- 关注
原创 Spark 机器学习总结(一)
一、密集和稀疏向量一个向量(1.0,0.0,3.0)它有两种表示的方法:密集向量(dence):[1.0,0.0,3.0] 其和一般的数组无异;稀疏向量(sparse):(3,[0,2],[1.0,3.0]) 其表示的含义(向量大小,序号,值) 序号从0开始。 参考:1. https://yq.aliyun.com...
2018-10-18 20:52:36
249
1
原创 特征重要度整理 - 随机森林、逻辑回归
一、 随机森林输出特征重要度 用随机森林进行特征重要性评估的思想其实很简单,通俗来讲就是看每个特征在随机森林中的每颗树上做了多大的贡献,取平均值,然后比较特征之间的贡献大小。 常见的计算方法有两种,一种是平均不纯度的减少(mean decrease impurity),常用gini /entropy /information gain测量,现在sklearn中用的就是...
2018-10-07 10:57:57
24147
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人