【kaggle之旅-1】泰坦尼克号

7/11

7/17 跟着kaggle的指引做了一下titanic

7/18 总结titanic指引中用到的知识点

import pandas as pd
import numpy as np

from sklearn.ensemble import RandomForestClassifier


# train_data=pd.DataFrame("shujvdizhi")
train_data=pd.read_csv("shujvdizhi")
train_data.head()

# test_data=pd.DataFrame("shujvdizhi")
test_data=pd.DataFrame("shujvdizhi")
test_data.head()


y=train_data["Survived"]

features=['A','B','C','D']
X=pd.get_dummies(train_data[features])
X_test=pd.get_dummies(test_data[features])


model=RandomForestClassifier(n_estimator=100,max_depth=5,random_state=1)
model.fit(X,y)
predictions=model.predict(X_test)

outcome=pd.DataFrame({'PassengerId':test_data['PassengerId'],'Survived':predictions})
# outcome.to_csv("submission",index=False)
outcome.to_csv("submission.csv",index=False)
  • RandomForestClassifer

(1条消息) sklearn——随机森林RandomForestClassifier的参数含义_randomforestclassifier参数_super尚的博客-CSDN博客

  • pd.get_dummies()

pandas - 数据离散化之 get_dummies - 知乎 (zhihu.com)

  • pd.to_csv()

pandas的to_csv()使用方法 - 知乎 (zhihu.com)

  • 索引数据表格的多列数据时,先定义要索引的列的集合 features=['A','B','C'],再索引 data=train_data[ features ]
  • 当只索引数据表格中的一列时,test_data['PassengerId'] 等同于 test_data.PassengerId

后续学习:

  1. 改进titanic的模型(了解更多的集成方法)1.11. 集成方法 - sklearn (scikitlearn.com.cn)
  2. 学习思路sklearn库主要模块功能简介 - 知乎 (zhihu.com)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值