- 博客(4)
- 收藏
- 关注
原创 决策树建立与可视化,随机森林建立
决策树建立与可视化,随机森林建立 (1)绘制决策树,使用信息熵方法entropy,random_state用于控制随机状态 dt = DecisionTreeClassifier(criterion='entropy', random_state=17) dt.fit(df_train, y) # fit过程必不可少,将数据输入决策树 下列决策树最大深度为3,random_state=17为一般选择,criterion可以选择gini或者entropy,前者是基尼系数,后者是信息熵,默认前者;dept
2020-11-30 15:17:44 162
原创 数据分析前的准备工作——分离训练集和测试集中的自变量和因变量
数据分析前的准备工作——分离训练集和测试集中的自变量和因变量 drop()用于删除表中的数据,方法内的参数对应特征列 X_train = data_train.drop(['Target'], axis=1) y_train = data_train['Target'] X_test = data_test.drop(['Target'], axis=1) y_test = data_test['Target'] ...
2020-11-30 15:04:13 372
翻译 将Target编为0,1编码(one-hot-code)
将Target编为0,1编码(one-hot-code) loc或iloc是选择数据,select data_test.loc[data_test["Target"] == ">50K.", "Target"] = 1 data_test.loc[data_test["Target"] == "<=50K.", "Target"] = 0 data_train.loc[data_train["Target"] == ">50K.", "Target"] = 1 data_train.l
2020-11-30 09:58:31 514
原创 绘制五列统计图,np.ceil()向上取整
绘制五列统计图,np.ceil()向上取整 fig = plt.figure(figsize = (25, 15)) # 定义基本绘图空间 cols = 5 # 五列 rows = np.ceil(float(data_train.shape[1]) / cols) #行=特征数量/列数 for i, column in enumerate(data_train.columns):#列columns ax = fig.add_subplot(rows, cols, i + 1)
2020-11-30 09:54:16 177
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人