【机器学习】集成学习之xgboost的sklearn版XGBClassifier使用教程

      XGBClassifier是xgboost的sklearn版本。代码完整的展示了使用xgboost建立模型的过程,并比较xgboost和randomForest的性能。


  1 # -*- coding: utf-8 -*-
  2 """
  3 # 作者:wanglei5205
  4 # 邮箱:wanglei5205@126.com
  5 # 博客:http://cnblogs.com/wanglei5205
  6 # github:http://github.com/wanglei5205
  7 """
  8 ### 导入模块
  9 import pandas as pd
 10 
 11 ### load_data
 12 titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
 13 X = titanic[['pclass', 'age', 'sex']]     # 输入空间
 14 y = titanic['survived']                   # 输出空间
 15 X.age.fillna(X.age.mean(), inplace=True)  # 填充缺失值(均值),inplace=True(无返回值,原地替换)
 16 
 17 ### split_data
 18 from sklearn.cross_validation import train_test_split
 19 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=33)
 20 
 21 ### feature_extraction
 22 from sklearn.feature_extraction import DictVectorizer
 23 vec = DictVectorizer(sparse=False)
 24 X_train = vec.fit_transform(X_train.to_dict(orient='record'))
 25 X_test = vec.transform(X_test.to_dict(orient='record'))
 26 
 27 ### create_model
 28 # rfc
 29 from sklearn.ensemble import RandomForestClassifier
 30 rfc = RandomForestClassifier()
 31 rfc.fit(X_train, y_train)
 32 
 33 # xgbc
 34 from xgboost import XGBClassifier
 35 xgbc = XGBClassifier()
 36 xgbc.fit(X_train, y_train)
 37 
 38 ### model_score
 39 print ('rfc.score=',rfc.score(X_test, y_test))
 40 print('xgbc.score=',xgbc.score(X_test, y_test))
 41 """
 42 rfc.score= 0.787234042553
 43 xgbc.score= 0.787234042553
 44 """




转载于:https://www.cnblogs.com/wanglei5205/p/8560845.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值