Taitanic - Startup for Kaggle

开始玩一下Kaggle, 用Taitanic作为第一个练手的Project。


记录一下步骤和遇到的问题,给自己提个醒,也给各位做个借鉴。


1,首先在Kaggle上把 Test data和 trainning data 下载下来, 选择R来做分析

2,准备采用算法的package,借这个时间整体过一下decision Tree的几个算法,实际操作一下,先把这些包install一下,需要现在最新版本的R才能找到其中的一些Packege

    a. rpart  

    b. party

    c.C50

    d. RandomForest

   

3,设置目录,将数据读入R中

    添加代码片段一直不成功,只能这样添加了。求各位高手指点

    setwd('C:\\Kaggle\\Titanic')
    getwd()

    test_data = read.table("test.csv",header=TRUE,sep=",",row.names=1);

    head(test_data)

    test_data = read.table("test.csv",header=TRUE,sep=",",row.names=1);

4,好,现在开始使用rpart

     先看一下用法 ?rpart

    使用之前先删掉一些自认没有用的变量:  train_data = subset(data0,select = -c(Name))

    model.r<-rpart(train_data$Survived~.,data=train_data)

    好,第一个问题来了

    test set 中的一些Factor variable 在train set 中没有出现过, 会出现错误

    解决方法:删掉无用的factor类型的feture


5  可以plot一下train 后的 tree

   plot(model.r)
   plot(model.r,uniform=TRUE)

  text(model.r,use.n=TRUE,all=TRUE)

 每次执行test之前要先执行一下plot

6   好,可以进行predict了

     rpart_p <- predict(model.r,test_data)

     现在遇到第二个问题:被预测的column 不是factor 类型, 报error (今天先写到这,未完待续,时间紧迫,写的太仓促了,各位见谅)

     

    

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值