用R语言处理确实数据并对比不同方式的效果+Caret包进行svm交叉验证

本文介绍了如何使用R语言处理乳腺癌数据集中的缺失值,通过平均值填充方法,然后利用Caret包进行支持向量机(SVM)模型的构建和交叉验证,以评估不同方法的效果。
摘要由CSDN通过智能技术生成

数据来源:

http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/ 
# (描述文件: http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Original%29 )

 

breast <- read.csv("breast-cancer-wisconsin.data.txt")

#get all but one columns
# reference: https://stackoverflow.com/questions/12868581/list-all-column-except-for-one-in-r
#mtcars[, !names(mtcars) %in% c("carb", "mpg")] 
head(breast[, !names(breast) %in% c("X1000025")])

# First of all, we need to find which column contanins missing data.
lapply(breast[, !names(breast) %in% c("X1000025")],function(x)unique(x))
#sapply(breast,function(x) unique(x))

#Now we know that column X1.3 contains '?' 
#Let's find out how many rows has value '?'
nrow(breast[breast$X1.3 =='?',])/nrow(breast)
breas

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值