5.实操(美国两党预测)

最新推荐文章于 2020-12-24 11:09:21 发布

语译分西

最新推荐文章于 2020-12-24 11:09:21 发布

阅读量783

点赞数

分类专栏：分类回归算法及实战

本文链接：https://blog.csdn.net/weixin_42167712/article/details/100560656

版权

一、数据预览

1.Data.head()

在这里插入图片描述

2. Class分布预览

在这里插入图片描述

1.3 其他

无缺失值
class 名称是 'cand_pty_affiliation '

1.4 问题

将class值从REP、DEM变成0，1
要进行one-hot变换

二、数据预处理

2.1 将class值从REP、DEM变成0，1

data['cand_pty_affiliation'] = data[['cand_pty_affiliation']].replace({
   'REP':1,'DEM':0})

2.2 one-hot变换

首先将属性和class分离开

X = data.drop(['cand_pty_affiliation'],axis=1)
y = data['cand_pty_affiliation']

再进行one-hot变换，转成稀疏格式

X = pd.get_dummies(X,sparse=True)

2.3 测试集、训练集分离

from sklearn.model_selection import train_test_split
train_x, test_x, train_y, test_y = train_test_split(X, y, test_size=0.4, random_state=33)

因为数据有点多，训练集就取60%，方便计算

三、模型构建

3.1 随机森林

不断地用Grid SearchCV调试参数

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
parameters = {
   'max_depth':np.arange(14,18),'min_samples_split':np.arange(5,8)} 
clf = GridSearchCV(estimator=RandomForestClassifier(n_estimators=186,random_state=33,n_jobs=-1),param_grid=parameters,cv=5,n_jobs=-1,scoring='roc_auc')
clf.fit(train_x,train_y)
print(clf.best_score_)
print(clf.best_params_)

得到最优的参数模型

最低0.47元/天解锁文章

语译分西

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
5.实操(美国两党预测)

目录一、数据预览1.Data.head()2. Class分布预览1.3 其他1.4 问题二、数据预处理2.1 将class值从REP、DEM变成0，12.2 one-hot变换2.3 测试集、训练集分离三、模型构建3.1 随机森林一、数据预览1.Data.head()2. Class分布预览1.3 其他无缺失值class 名称是 'cand_pty_affiliation '...
复制链接

扫一扫

专栏目录