使用sklearn的DecisionTreeRegressor解决分类问题实例。
数据集描述
数据集存放在一个csv的文件中,其中有108个特征,1列目标变量。其中特征中有一个特征是玩家id,以及玩家的注册时间,将这两个无关变量剔除掉。剩余106个特征,特征变量的类型为数字。
加载数据
import numpy as np
import pandas as pd
data = pd.read_csv("train.csv")
test = pd.read_csv("tap_fun_test.csv")
分别将train训练集中的数据,以及test测试集中的数据读取;
处理数据
1.剔除在线时长小于5的数据
data_split = data[data['avg_online_minutes']<5]
2.拆分训练集和测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(trainX,trainY,random_state=666)
简单建模测试
1.代入模型
from sklearn.tree import DecisionTreeRegressor
dt_reg = DecisionTreeRegressor(max_depth=5)
dt_reg.fit(X_train,y_train)
2.得出训练得分
dt_reg.score(X_test, y_test)
网格化搜索测试