前两天写了个scikit-learn初步学习,今天没事又照着写了个RF模型的,刚开始还不懂这个python列表推导式,想了想还是挺好用的。
然后用了GridSearchCv这个参数优化类,遍历多种参数组合(也就是暴搜最优参数组合),通过交叉验证确定最佳效果参数。
所以优化完可能对训练数据拟合更差,泛化能力更强?
最后还有把数据划分为训练集和测试集。
最后说一下用的数据还是scikit-learn初步学习里面的 但是加了标签,也就是在数据第一行添加上f1,f2,f3,f4,f5,f6,f7,f8,result。
#coding=utf-8
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.grid_search import GridSearchCV
from sklearn import cross_validation,metrics
import matplotlib.pylab as plt
from sklearn.externals import joblib
from sklearn.cross_validation import train_test_split
train = pd.read_csv("C:\Users\Administrator\Desktop\hh_practice.csv")
# for row in train:
# print row
# print 8888
# print train.head(10)
# print t