用R语言对一个信用卡数据实现logit,GBM,knn,xgboost

最新推荐文章于 2024-06-02 16:48:38 发布

相逢一醉为前缘

最新推荐文章于 2024-06-02 16:48:38 发布

阅读量714

点赞数

分类专栏： R 回归文章标签： R

R 同时被 2 个专栏收录

35 篇文章 1 订阅

订阅专栏

回归

15 篇文章 0 订阅

订阅专栏

Prepare the data

数据来自UCIhttp://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening,一个信a用卡的数据,具体各项变量名以及变量名代表的含义不明(应该是出于保护隐私的目的),本文会用logit,GBM,knn,xgboost来对数据进行分类预测,对比准确率

预计的准确率应该是:

xgboost > GBM > logit > knn

Download the data

dataset = read.table("http://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening/crx.data", sep = ",", essay-header = F, na.strings = "?")

head(dataset)

Train and Test

分割数据的训练集和测试集,这里set.seed(123),设定70%的训练集,30%的测试集.

Change the variable into dummy variables

有时候,需要转化变量为哑变量,因为在一些挖掘场合,数据不能直接使用因子型的数据:

knn
glmnet
svm
xgboost

有些挖掘方法是可以使用因子变量的,比如:

logistic regression
raprt
GBM
randomforest

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

相逢一醉为前缘

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
用R语言对一个信用卡数据实现logit,GBM,knn,xgboost

Prepare the data数据来自UCIhttp://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening,一个信a用卡的数据,具体各项变量名以及变量名代表的含义不明(应该是出于保护隐私的目的),本文会用logit,GBM,knn,xgboost来对数据进行分类预测,对比准确率预计的准确率应该是:xg...
复制链接

扫一扫