数据清洗
**码上人生**
在数据、代码中寻找诗和远方......
展开
-
R语言|数据预处理
数据探索性分析需要遵循3个步骤:第一步,要查看单个变量的分布情况,这样做事为了了解每一个变量值的分布情况并找出缺失值和离群点,以便确定变量是否需要进行转换或者是否应该用于建模。第二步,要查看因变量与自变量之间的关系,这可以用于特征选择。第三步,查看自变量之间的关系,以便删除冗余变量。 1、自变量为数值类型和分类类型,并分别求自变量与因变量的相关性 2、因变量为数值型时,对因变量进行原创 2016-10-04 13:02:57 · 2960 阅读 · 0 评论 -
R语言|数据预处理--1分类时:因变量为数值类型
1、因变量为数值类型,转化为分类类型> cup98$TARGET_D2 c(0, 0.1, 10, 15, 20, 25, 30, 50,max(cup98$TARGET_D))) breaks也可以用seq生成breaks=seq(0, 100, by=5)>table(cup98$TARGET_D2)[0,0.1)[0.1,10) [1原创 2016-10-04 13:05:34 · 8720 阅读 · 0 评论 -
R语言|数据预处理--2因子类型:训练测试集数据
查看因子水平是否大于10数据集下载地址: http://www.sigkdd.org/kddcup/index.php?section=1998&method=data 1、把预测数据与训练数据类型不一样的属性,修改为训练数据的类型(因子类型):请参考R项目客户回复预测与效益最大化1)、读取所需要预测的数据:> cup98val Warning message:In原创 2016-10-04 13:28:20 · 3791 阅读 · 0 评论 -
R语言|数据预处理--3缺失值离群点处理
查询包含缺失值的总行数 缺失值包括:NA,NULL和0值等1、NA值处理:判断为NA的坐标:which(is.na(a)) [1] 4 注意:任意值与NA算术操作都为NA> n.missing rowSums(is.na(cup98)) #求每行的缺失值总个数> tab.missing> tab.missingn.missing 0原创 2016-10-04 15:31:00 · 4691 阅读 · 0 评论 -
R语言|数据预处理--4变量分析及相关性
因变量与自变量之间的关系包括两种:自变量为数值类型和分类类型请参考R项目客户回复预测与效益最大化 1、分别查看数据的属性为数值型和因子类型的属性which(sapply(cup98, is.numeric))> idx.num ODATEDW DOB CLUSTER AGE NUMCHLD INCOME WEALTH1 HIT原创 2016-10-04 15:37:58 · 22313 阅读 · 0 评论 -
R语言|数据预处理--5异常值分析及处理
数据集接《3缺失值离群点处理》中21、异常值分析及处理#获取月收入的异常值out boxplot(traindata$x5)# which(traindata$x5%in% out)# traindata1 #boxplot(traindata1$x5) #首先对于x2变量,即客户的年龄,我们可以定量分析,发现有以下值unique(traindata$x原创 2016-10-04 15:40:47 · 14434 阅读 · 0 评论 -
R语言|数据预处理--6切分数据集:采样
1、创建训练集、validation和测试集数据的三种方法:将iris数据集分为训练集数据和测试集数据1)> dim(iris)[1]150 5>index >iris.train >dim(iris.train)[1]100 5>iris.test >dim(iris.test)[1]50 5 2)对数据分成两部分,70%训练数据,30%原创 2016-10-04 15:46:08 · 35940 阅读 · 2 评论