自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 决策树建立与可视化,随机森林建立

决策树建立与可视化,随机森林建立 (1)绘制决策树,使用信息熵方法entropy,random_state用于控制随机状态 dt = DecisionTreeClassifier(criterion='entropy', random_state=17) dt.fit(df_train, y) # fit过程必不可少,将数据输入决策树 下列决策树最大深度为3,random_state=17为一般选择,criterion可以选择gini或者entropy,前者是基尼系数,后者是信息熵,默认前者;dept

2020-11-30 15:17:44 162

原创 数据分析前的准备工作——分离训练集和测试集中的自变量和因变量

数据分析前的准备工作——分离训练集和测试集中的自变量和因变量 drop()用于删除表中的数据,方法内的参数对应特征列 X_train = data_train.drop(['Target'], axis=1) y_train = data_train['Target'] X_test = data_test.drop(['Target'], axis=1) y_test = data_test['Target'] ...

2020-11-30 15:04:13 372

翻译 将Target编为0,1编码(one-hot-code)

将Target编为0,1编码(one-hot-code) loc或iloc是选择数据,select data_test.loc[data_test["Target"] == ">50K.", "Target"] = 1 data_test.loc[data_test["Target"] == "<=50K.", "Target"] = 0 data_train.loc[data_train["Target"] == ">50K.", "Target"] = 1 data_train.l

2020-11-30 09:58:31 514

原创 绘制五列统计图,np.ceil()向上取整

绘制五列统计图,np.ceil()向上取整 fig = plt.figure(figsize = (25, 15)) # 定义基本绘图空间 cols = 5 # 五列 rows = np.ceil(float(data_train.shape[1]) / cols) #行=特征数量/列数 for i, column in enumerate(data_train.columns):#列columns ax = fig.add_subplot(rows, cols, i + 1)

2020-11-30 09:54:16 177

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除