7/11
7/17 跟着kaggle的指引做了一下titanic
7/18 总结titanic指引中用到的知识点
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
# train_data=pd.DataFrame("shujvdizhi")
train_data=pd.read_csv("shujvdizhi")
train_data.head()
# test_data=pd.DataFrame("shujvdizhi")
test_data=pd.DataFrame("shujvdizhi")
test_data.head()
y=train_data["Survived"]
features=['A','B','C','D']
X=pd.get_dummies(train_data[features])
X_test=pd.get_dummies(test_data[features])
model=RandomForestClassifier(n_estimator=100,max_depth=5,random_state=1)
model.fit(X,y)
predictions=model.predict(X_test)
outcome=pd.DataFrame({'PassengerId':test_data['PassengerId'],'Survived':predictions})
# outcome.to_csv("submission",index=False)
outcome.to_csv("submission.csv",index=False)
- RandomForestClassifer
(1条消息) sklearn——随机森林RandomForestClassifier的参数含义_randomforestclassifier参数_super尚的博客-CSDN博客
- pd.get_dummies()
pandas - 数据离散化之 get_dummies - 知乎 (zhihu.com)
- pd.to_csv()
pandas的to_csv()使用方法 - 知乎 (zhihu.com)
- 索引数据表格的多列数据时,先定义要索引的列的集合 features=['A','B','C'],再索引 data=train_data[ features ]
- 当只索引数据表格中的一列时,test_data['PassengerId'] 等同于 test_data.PassengerId
后续学习:
- 改进titanic的模型(了解更多的集成方法)1.11. 集成方法 - sklearn (scikitlearn.com.cn)
- 学习思路sklearn库主要模块功能简介 - 知乎 (zhihu.com)