例子是wine数据集: http://archive.ics.uci.edu/ml/machine-learning-databases/wine/
之所以可以利用随即森立来进行特征筛选是由于决策树的特性,因此我们可以利用所有决策树得到的平均不纯度(基尼系数)衰减来量化特征的重要性。根据重要性可以剔除相关度很低的特征,精简模型。
接下来直接进入代码:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
#载入数据,必要的时候可以查看下数据的情况
source_url = 'http://archive.ics.u