weixin_42211604-CSDN博客

原创决策树建立与可视化，随机森林建立

决策树建立与可视化，随机森林建立（1）绘制决策树，使用信息熵方法entropy，random_state用于控制随机状态 dt = DecisionTreeClassifier(criterion='entropy', random_state=17) dt.fit(df_train, y) # fit过程必不可少，将数据输入决策树下列决策树最大深度为3，random_state=17为一般选择，criterion可以选择gini或者entropy,前者是基尼系数，后者是信息熵，默认前者；dept

2020-11-30 15:17:44 162

原创数据分析前的准备工作——分离训练集和测试集中的自变量和因变量

数据分析前的准备工作——分离训练集和测试集中的自变量和因变量 drop()用于删除表中的数据，方法内的参数对应特征列 X_train = data_train.drop(['Target'], axis=1) y_train = data_train['Target'] X_test = data_test.drop(['Target'], axis=1) y_test = data_test['Target'] ...

2020-11-30 15:04:13 372

翻译将Target编为0,1编码（one-hot-code）

将Target编为0,1编码（one-hot-code） loc或iloc是选择数据，select data_test.loc[data_test["Target"] == ">50K.", "Target"] = 1 data_test.loc[data_test["Target"] == "<=50K.", "Target"] = 0 data_train.loc[data_train["Target"] == ">50K.", "Target"] = 1 data_train.l

2020-11-30 09:58:31 514

原创绘制五列统计图，np.ceil()向上取整

绘制五列统计图，np.ceil()向上取整 fig = plt.figure(figsize = (25, 15)) # 定义基本绘图空间 cols = 5 # 五列 rows = np.ceil(float(data_train.shape[1]) / cols) #行=特征数量/列数 for i, column in enumerate(data_train.columns):#列columns ax = fig.add_subplot(rows, cols, i + 1)

2020-11-30 09:54:16 177

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 决策树建立与可视化，随机森林建立

原创 数据分析前的准备工作——分离训练集和测试集中的自变量和因变量

翻译 将Target编为0,1编码（one-hot-code）

原创 绘制五列统计图，np.ceil()向上取整

空空如也

空空如也

原创决策树建立与可视化，随机森林建立

原创数据分析前的准备工作——分离训练集和测试集中的自变量和因变量

翻译将Target编为0,1编码（one-hot-code）

原创绘制五列统计图，np.ceil()向上取整