开始玩一下Kaggle, 用Taitanic作为第一个练手的Project。
记录一下步骤和遇到的问题,给自己提个醒,也给各位做个借鉴。
1,首先在Kaggle上把 Test data和 trainning data 下载下来, 选择R来做分析
2,准备采用算法的package,借这个时间整体过一下decision Tree的几个算法,实际操作一下,先把这些包install一下,需要现在最新版本的R才能找到其中的一些Packege
a. rpart
b. party
c.C50
d. RandomForest
3,设置目录,将数据读入R中
添加代码片段一直不成功,只能这样添加了。求各位高手指点
setwd('C:\\Kaggle\\Titanic')
getwd()
test_data = read.table("test.csv",header=TRUE,sep=",",row.names=1);
head(test_data)
test_data = read.table("test.csv",header=TRUE,sep=",",row.names=1);
4,好,现在开始使用rpart
先看一下用法 ?rpart
使用之前先删掉一些自认没有用的变量: train_data = subset(data0,select = -c(Name))
model.r<-rpart(train_data$Survived~.,data=train_data)
好,第一个问题来了
test set 中的一些Factor variable 在train set 中没有出现过, 会出现错误
解决方法:删掉无用的factor类型的feture
5 可以plot一下train 后的 tree
plot(model.r)
plot(model.r,uniform=TRUE)
text(model.r,use.n=TRUE,all=TRUE)
每次执行test之前要先执行一下plot
6 好,可以进行predict了
rpart_p <- predict(model.r,test_data)
现在遇到第二个问题:被预测的column 不是factor 类型, 报error (今天先写到这,未完待续,时间紧迫,写的太仓促了,各位见谅)