![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
R语言
**码上人生**
在数据、代码中寻找诗和远方......
展开
-
data.table包简介
data.table包简介junjun2016年2月9日参考:http://blog.163.com/yugao1986@126/blog/static/6922850820145305014187data.table包简介data.table包主要特色是:设置keys、快速分组和滚得时序的快速合并。data.table主要通过二元检索法大大提高数据操作的效原创 2016-02-09 11:38:17 · 1755 阅读 · 0 评论 -
R语言|数据预处理--5异常值分析及处理
数据集接《3缺失值离群点处理》中21、异常值分析及处理#获取月收入的异常值out boxplot(traindata$x5)# which(traindata$x5%in% out)# traindata1 #boxplot(traindata1$x5) #首先对于x2变量,即客户的年龄,我们可以定量分析,发现有以下值unique(traindata$x原创 2016-10-04 15:40:47 · 14373 阅读 · 0 评论 -
R语言|数据预处理--4变量分析及相关性
因变量与自变量之间的关系包括两种:自变量为数值类型和分类类型请参考R项目客户回复预测与效益最大化 1、分别查看数据的属性为数值型和因子类型的属性which(sapply(cup98, is.numeric))> idx.num ODATEDW DOB CLUSTER AGE NUMCHLD INCOME WEALTH1 HIT原创 2016-10-04 15:37:58 · 22263 阅读 · 0 评论 -
R语言|数据预处理--3缺失值离群点处理
查询包含缺失值的总行数 缺失值包括:NA,NULL和0值等1、NA值处理:判断为NA的坐标:which(is.na(a)) [1] 4 注意:任意值与NA算术操作都为NA> n.missing rowSums(is.na(cup98)) #求每行的缺失值总个数> tab.missing> tab.missingn.missing 0原创 2016-10-04 15:31:00 · 4658 阅读 · 0 评论 -
R语言|数据预处理--2因子类型:训练测试集数据
查看因子水平是否大于10数据集下载地址: http://www.sigkdd.org/kddcup/index.php?section=1998&method=data 1、把预测数据与训练数据类型不一样的属性,修改为训练数据的类型(因子类型):请参考R项目客户回复预测与效益最大化1)、读取所需要预测的数据:> cup98val Warning message:In原创 2016-10-04 13:28:20 · 3754 阅读 · 0 评论 -
R语言|数据预处理--1分类时:因变量为数值类型
1、因变量为数值类型,转化为分类类型> cup98$TARGET_D2 c(0, 0.1, 10, 15, 20, 25, 30, 50,max(cup98$TARGET_D))) breaks也可以用seq生成breaks=seq(0, 100, by=5)>table(cup98$TARGET_D2)[0,0.1)[0.1,10) [1原创 2016-10-04 13:05:34 · 8675 阅读 · 0 评论 -
R语言|数据预处理
数据探索性分析需要遵循3个步骤:第一步,要查看单个变量的分布情况,这样做事为了了解每一个变量值的分布情况并找出缺失值和离群点,以便确定变量是否需要进行转换或者是否应该用于建模。第二步,要查看因变量与自变量之间的关系,这可以用于特征选择。第三步,查看自变量之间的关系,以便删除冗余变量。 1、自变量为数值类型和分类类型,并分别求自变量与因变量的相关性 2、因变量为数值型时,对因变量进行原创 2016-10-04 13:02:57 · 2926 阅读 · 0 评论 -
R语言|求ROC和AUC值
测试junjun2016年9月29日1、求ROC和AUC值#方法一:ROCR包中主要是两个class:prediction和performance。前者是将预测结果和真实标签组合在一起,生成一个prediction对象,然后在用performance函数,按照给定的评价方法,生成一个performance对象,最后直接对performance用plot函数就能绘制出相应原创 2016-09-29 15:36:54 · 47268 阅读 · 1 评论 -
提升R代码运算效率的11中方法
当我们利用R语言处理大型数据集时,for循环语句的运算效率非常低。有许多种方法可以提升你的代码运算效率,但或许你更想了解运算效率能得到多大的提升。本文将介绍几种适用于大数据领域的方法,包括简单的逻辑调整设计、并行处理和Rcpp的运用,利用这些方法你可以轻松地处理1亿行以上的数据集。输出原始数据框:#Create the data framecol1col2c转载 2016-10-11 17:20:00 · 1302 阅读 · 0 评论 -
Rstudio安装——打开一片空白问题
1、R语言安装指定为64位;2、R语言和Rstudio的安装路径不要有汉字;3、R语言和Rstudio的安装父目录要为同一个。注意:如果不按照上面的操作,可能会出现Rstudio打不开的问题。原创 2016-06-29 15:18:32 · 54943 阅读 · 13 评论 -
求相关系数的两种方法
方法一、> cor(mtcars[, 2:11]) cyl disp hp drat wt qsec vscyl 1.0000000 0.9020329 0.8324475 -0.69993811 0.7824958-0.59124207 -0.8108118dis原创 2016-04-06 16:18:36 · 5635 阅读 · 0 评论 -
相关系数图可视化
相关系数图junjun2016年4月6日参考:刘顺祥作品虽然cor()函数可以非常方便快捷的计算出连续变量之间的相关系数,但当变量非常多时,返回的相关系数一定时读者看的眼花缭乱。下面就以R自带的mtcars数据集为例,讲讲相关系数图的绘制:cor(mtcars[1:7])## mpg cyl di原创 2016-04-06 15:53:13 · 16051 阅读 · 0 评论 -
文本挖掘实例
文本挖掘junjun2016年2月4日文本分析的应用越来越广泛,今天就讲讲关于评论数据的那点事。评论数据的获取:一般通过网络爬虫的方式抓取各大网站的评论数据,本次分析数据就来源于携程网某酒店的评论,成功爬取该酒店的评论数据,于是我开始使用这些数据做相关的分析。(注意:数据分析、挖掘时,这部分工作可以有专门的人员来完成)1、加载数据和包#1)本文使原创 2016-02-04 15:44:28 · 10607 阅读 · 1 评论 -
R语言|数据预处理--6切分数据集:采样
1、创建训练集、validation和测试集数据的三种方法:将iris数据集分为训练集数据和测试集数据1)> dim(iris)[1]150 5>index >iris.train >dim(iris.train)[1]100 5>iris.test >dim(iris.test)[1]50 5 2)对数据分成两部分,70%训练数据,30%原创 2016-10-04 15:46:08 · 35728 阅读 · 2 评论