将实际问题转换为决策树
例子:
主题:是否是一只适合长期投资股票?
1,是否体量大(市值高?)
2,是否具有发展潜力(新兴产业,股东的组成)?
3,是否长期趋势向好?
然后最终结论:适合or不适合
逐步处理多指标/维度数据
每次选择一个可以判断(Y OR N )的条件,然后进行单一条件的决策树转换
还是上面的例子
假设我们经过调查,体量大的股票中,有50只适合长期投资,20只不适合,体量不大的股票中有10只适合长期投资,40只不适合
然后再用是否具有发展潜力这一指标去判断,有发展潜力中的股票,有40只适合长期投资,30只不适合,没有发展潜力的股票,有5只适合,30只不适合
再用是否长期趋势向好判断
趋势向好的股票中,47只适合,20只不适合,趋势不长期向好的股票中2只适合,28只不适合
现在又出现了个问题,这个分类一定是好的分类吗?
于是现在引出了个问题,如何评价分类的好与坏
首先我们要明确,上面的三个指标,都是不能单独判断股票是否适合长期投资的
于是我们有了一概念"Impure"
对于非%100正确分类的的分类,我们都称之为"Impure",Impure的关注点在于叶节点(Leaf node)
于是我们判断分类好坏的标准就是是否%100正确分类