Taitanic - Startup for Kaggle

最新推荐文章于 2023-03-17 20:03:13 发布

ffffffs

最新推荐文章于 2023-03-17 20:03:13 发布

阅读量778

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ffffffs/article/details/11159657

版权

开始玩一下Kaggle，用Taitanic作为第一个练手的Project。

记录一下步骤和遇到的问题，给自己提个醒，也给各位做个借鉴。

1，首先在Kaggle上把 Test data和 trainning data 下载下来, 选择R来做分析

2，准备采用算法的package，借这个时间整体过一下decision Tree的几个算法，实际操作一下，先把这些包install一下，需要现在最新版本的R才能找到其中的一些Packege

a. rpart

b. party

c.C50

d. RandomForest

3，设置目录，将数据读入R中

添加代码片段一直不成功，只能这样添加了。求各位高手指点

setwd('C:\\Kaggle\\Titanic')
getwd()

test_data = read.table("test.csv",header=TRUE,sep=",",row.names=1);

head(test_data)

test_data = read.table("test.csv",header=TRUE,sep=",",row.names=1);

4，好，现在开始使用rpart

先看一下用法？rpart

使用之前先删掉一些自认没有用的变量： train_data = subset(data0,select = -c(Name))

model.r<-rpart(train_data$Survived~.,data=train_data)

好，第一个问题来了

test set 中的一些Factor variable 在train set 中没有出现过，会出现错误

解决方法：删掉无用的factor类型的feture

5 可以plot一下train 后的 tree

plot(model.r)
plot(model.r,uniform=TRUE)

text(model.r,use.n=TRUE,all=TRUE)

每次执行test之前要先执行一下plot

6 好，可以进行predict了

rpart_p <- predict(model.r,test_data)

现在遇到第二个问题：被预测的column 不是factor 类型，报error （今天先写到这，未完待续，时间紧迫，写的太仓促了，各位见谅）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。