数据处理--R语言
文章平均质量分 91
白马长枪儒雅将
这个作者很懒,什么都没留下…
展开
-
R语言kaggle 房价预测用xgboost 实现,可以保证前五十,最好达到第四名的成绩
关于数据集的下载:https://download.csdn.net/download/u012429555/10891685library(xgboost)install.packages("xgboost")library(readr)library(stringr)library(caret)install.packages("caret")install.packages...原创 2019-01-02 22:16:40 · 6474 阅读 · 6 评论 -
R语言做评分卡模型<二>
Score Card原理 评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量离散化之后用WOE编码,在建立模型。ScoreCard用IV值来筛选变量,而且ScoreCard输出为分值。对IV的直观理解 IV的全称是Information Value,中文意思是信息价值,或者原创 2018-01-15 20:14:42 · 2311 阅读 · 0 评论 -
R之组间差异的非参数检验
# t 检验# 在研究中最常见的行为就是对两个组进行比较。接受某种新药治疗的患者是否较使用某种现# 有药物的患者表现出了更大程度的改善?某种制造工艺是否较另外一种工艺制造出的不合格品# 更少?两种教学方法中哪一种更有效?如果你的结果变量是类别型的,那么可以直接使用7.3节# 中阐述的方法。这里我们将关注结果变量为连续型的组间比较,并假设其呈正态分布。# 为了阐明方法,我们将使用MA...原创 2017-12-27 21:18:21 · 8424 阅读 · 2 评论 -
R之相关性的显著性检验
p 值可以解释如下:一个很小的p 值表示,在预测变量和响应变量之间的真实关系未知的情况下,不太可能完全由于偶然而观察到预测变量和响应变量之间的强相关。因此,如果看到一个很小的p 值,就可以推断预测变量和响应变量问存在关联。如果p 值足够小,我们便拒绝零假设( reject the null hypothesis) 也就是声明X 和Y 之间存在关系。# 相关# ...原创 2017-12-26 19:26:01 · 78275 阅读 · 0 评论 -
R之将表转换为扁平化格式
将表转换为扁平格式table2flat<-function(mytable){ df<-as.data.frame(mytable) rows<-dim(df)[1] cols<-dim(df)[2] x<-NULL for (i in 1:rows) { for (j in 1:df$Freq[i]) { row<-df[i,c(1:(cols-1原创 2017-12-26 16:15:23 · 1091 阅读 · 0 评论 -
R之生成频数表
# ,我们将着眼于类别型变量的频数表和列联表,以及相应的独立性检验、相关性的# 度量、图形化展示结果的方法。我们除了使用基础安装中的函数,还将连带使用vcd包和gmodels# # 包中的函数。# 本节中的数据来自vcd包中的Arthritis数据集。这份数据来自Kock & Edward (1988),表# 示了一项风湿性关节炎新疗法的双盲临床实验的结果。library(vcd)li原创 2017-12-26 15:06:00 · 14022 阅读 · 0 评论 -
R之独立性检验
# 独立性检验# R提供了多种检验类别型变量独立性的方法。本节中描述的三种检验分别为卡方独立性检验、# Fisher精确检验和Cochran-Mantel–Haenszel检验。# 1. 卡方独立性检验# 你可以使用chisq.test()函数对二维表的行变量和列变量进行卡方独立性检验library(vcd)mytable<-xtabs(~Treatment+Improve...原创 2017-12-26 15:35:26 · 9262 阅读 · 1 评论 -
R之分组计算描述性统计统计量
# summary()函数提供了最小值、最大值、四分位数和数值型变量的均值,以及因子向量和逻# 辑型向量的频数统计。你可以使用第5章中的apply()函数或sapply()函数计算所选择的任意描# 述性统计量。对于sapply()函数,其使用格式为:sapple(x,FUN,options)# 其中的x是你的数据框(或矩阵),FUN为一个任意的函数。如果指定了options,它们将被传递#原创 2017-12-25 16:10:24 · 5767 阅读 · 0 评论 -
R语言处理QQ群消息案例实现
install.packages("ggplot2")user.time<-data$timeuser.time<-as.character(user.time)user.time.h<-c()for(i in 1:length(user.time)){ user.time.h[i]<-substr(user.time[i],12,19)}#下面这句是提取时分秒user.ti原创 2017-12-06 18:30:08 · 663 阅读 · 0 评论 -
R语言做评分卡模型<一>
目录 一、使用Logistic和NaiveVayes建模 二、 Score Card原理 三、Naive Bayes评分卡 四、Logistics评分卡 这篇文章讲的第一章 ,利用使用Logistic和NaiveVayes建模信用评分是指根据客户的信用历史资料,利用一定的信用评分模型,得到不同等级的信用分数。根据客户的信用分数, 授信者可以分析客户按时还款的原创 2018-01-09 11:16:24 · 5297 阅读 · 0 评论 -
R语言par(fig=)函数的详细解释
图形布局的精细控制可能有很多时候,你想通过排布或叠加若干图形来创建单幅的、有意义的图形,这需要有对图形布局的精细控制能力。你可以使用图形参数fig=完成这个任务。此上添加两幅箱线图,创建了单幅的增强型图形opar<-par(no.readonly = TRUE)par(fig=c(0,0.8,0,0.8))plot(mtcars$wt,mtcars$mpg,xlab = "转载 2017-12-08 11:14:37 · 17181 阅读 · 15 评论 -
用户贷款风险预测——Error in matrix(unlist(value, recursive = FALSE, use.names = FALSE), nrow = nr, : length
数据:https://download.csdn.net/download/qq_41703182/10382068下面的代码完成了以下功能:列的重命名 缺失值的补充 异常值的处理 对数据不平衡做了超采样的操作 解决了: Error in matrix(unlist(value, recursive = FALSE, use.names = FALSE), nrow = nr, ...原创 2018-11-27 11:37:03 · 2944 阅读 · 0 评论 -
教你如何获取R的帮助
https://mobile.hellobi.com/?utm_source=qq&utm_medium=social&utm_oi=761303338074529792#/blogs/detail/6124转载 2018-11-25 11:02:52 · 841 阅读 · 0 评论 -
R 多元线性回归
install.packages("Hmisc")install.packages("mice")library(Hmisc)library(mice)data_1<-impute(ma317projectdata_2$X2012SP.DYN.LE00.IN,mean)#对结果进行填充ma317projectdata_2$X2012SP.DYN.LE00.IN[is.na(ma...原创 2018-11-24 21:43:38 · 920 阅读 · 0 评论 -
R 处理缺失值
https://zhuanlan.zhihu.com/p/24646630 https://mp.weixin.qq.com/s?__biz=MjM5MDAxNjkyMA==&mid=2650740301&amp;idx=1&amp;sn=342f2214f9b4f55227f0f46d37c78813&source=41#wechat_redirec...转载 2018-11-24 19:52:56 · 285 阅读 · 0 评论 -
如何用 R 创作古诗
install.packages("RODBC")library(RODBC)fileName <- "宋詞三百首.txt" #数据获取https://github.com/rime-aca/corpusSC <- readChar(fileName, file.info(fileName)$size)getwd()help(readChar)substr(SC, 1...原创 2018-11-24 18:36:21 · 739 阅读 · 0 评论 -
H2O的机器学习框架的数据分析应用
install.packages("h2o")library(h2o)h2o.init(nthreads = -1, #-1表示使用你机器上所有的核 max_mem_size = "8G") #max_mem_size参数表示允许h2o使用的最大内存loan_csv <- "https://raw.githubusercontent.com/h2oai/app-c...原创 2018-11-22 20:39:47 · 2389 阅读 · 0 评论 -
推荐系统评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)_DM
下面简单列举几种常用的推荐系统评测指标:1、准确率与召回率(Precision & Recall)准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。一般来说,Precision就是检...转载 2018-11-15 21:34:17 · 3661 阅读 · 0 评论 -
关于R处理数据的复习总结
1 、相关系数在R中 ,我们通过cor()计算相关系数,Pearson的相关系数,用符合r表示。在市场营销中,r的值躲到才表明两个变量之间存在重要的相关性呢?这个要根据你所在的行业来确定。不过一般而言我们通常使用Cochen的经验法则,这是心理学的传统。r=0.1是弱相关 :很小心才能检测出来r=0.3中等相关:r>=0.5是强相关:旁观者很容易察觉Cochen的...原创 2018-06-27 16:07:26 · 688 阅读 · 0 评论 -
R之箱线图
# # 箱线图(又称盒须图)通过绘制连续型变量的五数总括,即最小值、下四分位数(第25百分# 位数)、中位数(第50百分位数)、上四分位数(第75百分位数)以及最大值,描述了连续型变量# 的分布。箱线图能够显示出可能为离群点(范围±1.5*IQR以外的值,IQR表示四分位距,即上# 四分位数与下四分位数的差值)的观测。例如:boxplot(mtcars$mpg,main="Box ...原创 2017-12-23 20:58:31 · 9683 阅读 · 0 评论 -
R之核密度图
# # 用术语来说,核密度估计是用于估计随机变# 量概率密度函数的一种非参数方法。虽然其数学细节已经超出了本书的范畴,但从总体上讲,核# 密度图不失为一种用来观察连续型变量分布的有效方法。绘制密度图的方法(不叠加到另一幅图# 上方)为:plot(density(x))# # 其中的x是一个数值型向量。由于plot()函数会创建一幅新的图形,所以要向一# 幅已经存在的图形上叠加一条原创 2017-12-23 20:22:50 · 21012 阅读 · 8 评论 -
R--组比较:表和可视化
我们将通过一个例子来讲述组比较:表格和可视化下面是数据描述过程:下面是我们根据题目构造的数据结构和数据值第一部分######数据结构########segVars<-c("age","gender","income","kids","ownHome","subscribe")segVargType<-c("norm","binom","norm","pois",'binom原创 2017-10-10 21:49:15 · 878 阅读 · 0 评论 -
Rstudio使用出现问题
Error in gzfile(file, "wb") : cannot open the connectionIn addition: Warning message:In gzfile(file, "wb") : cannot open compressed file 'C:/Users/??Ч/AppData/Local/Temp/RtmpyejAO1/rs-graphics-cba8ae3...原创 2017-09-30 19:20:50 · 43212 阅读 · 17 评论 -
R学习连续变量之间的关系
穷则独善其身,达则兼善天下。——《孟子》1 plot (x,y)能够创建散点图,其中x代表横坐标,y代表纵坐标,这两个向量坐标一致。2 若我们向他人展示图形的话,那么绘图时注意使用xlab,ylab 和main选项作为图形加上合适的标签,这样便于理解图像3 使用参数col 对图形的着色4 使用参数legend对图形添加图例,这样读者知道每种颜色代表什么。5 使用参数cex帮原创 2017-10-08 11:51:44 · 4974 阅读 · 0 评论 -
R-图形的组合
任何成功,都是厚积薄发,多年苦修换来的,不怕走得慢,只怕不开始。 ----《没有梦想何必远方》原创 2017-09-20 21:02:34 · 4142 阅读 · 3 评论 -
R-次要刻度线 参考线 图例
不飞则已,一飞冲天;不鸣则已,一鸣惊人。——《韩非子》 R-次要刻度线 参考线 图例的使用 在Rtudio中编写如下代码:> dose> drugA> drugB> opar> opar> par(lwd=2,cex=1.5,fon原创 2017-09-20 19:41:39 · 6137 阅读 · 1 评论 -
R语言的各种分布函数
R语言的各种分布函数:至于具体的用法了,大家可以使用help命令,根据实际情况来进行使用R提供工具来计算累计分布函数p(cummulative distribution function CDF),概率密度函数d和分位数函数q,另外在各种概率分布前加r表示产生随机序列(R这种直接在分布前面加前缀的语法太难读了,pt() 误以为还是一个函数,实际上的含...原创 2017-09-23 16:36:46 · 125324 阅读 · 2 评论 -
R语言导入导出数据的几种方式总结
关于R从不同数据源导入数据的几种方式总结 导出:对于某一数据集导出文件的方法导出例子:write.csv(data_1,file = "d:/1111111111.csv")其中data_1是你的数据集,file是你的存储路径和要存储的名字 导入:1 使用键盘输入数据 (1) 创建一个空数据框(或...原创 2017-09-18 21:50:28 · 75609 阅读 · 4 评论 -
推荐的、数据检查的方式
去留无意,闲看庭前花开花落;宠辱不惊,漫随天外云卷云舒。——《幽窗小记》在进行R语言处理数据任务时,在导入数据时,我们的步骤如下:原创 2017-09-26 16:13:15 · 355 阅读 · 0 评论 -
对贝叶斯理解以及解释贝叶斯函数
贝叶斯转载 2017-10-14 19:29:29 · 5665 阅读 · 1 评论 -
R语言处理日期值的数值和字符串之间的相互转换
1 将日期的字符型转换为数值型日期值通常以字符串的形式输入到R中,然后转化为以数值形式存储的日期变量。函数as.Date()用于执行这种转化。其语法为as.Date(x, "input_format"),其中x是字符型数据,input_format则给出了用于读入日期的适当格式:举例:日期值的默认输入格式为yyyy-mm-dd。语句:mydata<-as.Dat原创 2017-12-09 12:19:03 · 31123 阅读 · 2 评论 -
R之直方图
# # 直方图# 直方图通过在X 轴上将值域分割为一定数量的组,在Y 轴上显示相应值的频数,展示了连续# 型变量的分布。可以使用如下函数创建直方图:# 其中的x是一个由数据值组成的数值向量。参数freq=FALSE表示根据概率密度而不是频数绘制# 图形。参数breaks用于控制组的数量。在定义直方图中的单元时,默认将生成等距切分。par(mfrow=c(2,2))# 第一幅直方原创 2017-12-23 17:46:27 · 2151 阅读 · 0 评论 -
R语言之饼状图
# 饼图在商业世界中无所不在,然而多数统计学家,包括相应R文档的编写者却都对它持否定# 态度。相对于饼图,他们更推荐使用条形图或点图,因为相对于面积,人们对长度的判断更精确。# 也许由于这个原因,R中饼图的选项与其他统计软件相比十分有限。# 饼图可由以下函数创建:pie(x,labels)# 其中x是一个非负数值向量,表示每个扇形的面积,而labels则是表示各扇形标签的字符型向量。#原创 2017-12-23 17:11:58 · 12993 阅读 · 0 评论 -
R处理数据的案例
将学生的各科考试成绩组合为单一的成绩衡量指标、基于相对名次(前20%,下20%,等等)给出从A到F的评分、根据学生姓氏和名字的首字母对花名册进行排序代码如下:options(digits = 2)Student<-c("John Davis","Angela Williams","Bullwinkle Moose","David Jones", "Janic原创 2017-12-23 13:07:20 · 3442 阅读 · 2 评论 -
在R语言环境中设置JAVA_HOME的路径
在R语言环境中设置JRE路径解决办法: 如果没有java运行环境,则需安装对应版本的jre,如R64就需要安装jre64位的,并且要注意在系统环境变量中指定java_home 如果有java运行环境,检查你的java版本与R版本选择是否一致(要么都是32位,要么都是64位) 提示一点:jdk1.9之后不要下载,包括1.9,以下命令适用于JDK版本1.6到1.8...原创 2017-12-04 19:33:57 · 4809 阅读 · 0 评论 -
R中的字符处理函数汇总
R语言中的字符处理函数汇总请注意,函数grep()、sub()和strsplit()能够搜索某个文本字符串(fixed=TRUE)或某个正则表达式(fixed=FALSE,默认值为FALSE)。正则表达式为文本模式的匹配提供了一套清晰而简练的语法。R语言中其他实用函数:原创 2017-12-20 21:37:31 · 806 阅读 · 0 评论 -
R语言中文社区历史文章整理(类型篇)
R语言中文社区历史文章整理(类型篇) R包:R语言交互式绘制杭州市地图:leafletCN包简介clickpaste包介绍igraph包快速上手jiebaR,从入门到喜欢Catterplots包,让你绘制不一样的图今天再来谈谈REmap包ggplot2你需要知道的都在这...R访问转载 2017-12-03 10:51:37 · 1218 阅读 · 0 评论 -
基于R语言的用户征信行为分类预测模型搭建总结
数据集:15万行数据量,11个数据维度。目标变量为是否有重大违约倾向(定义为超过90天没有还贷)建模流程:1. 缺失值处理发现数据集的数据缺失主要集中在亲属数量和月收入两个属性。其中,亲属数量却缺失属性为3000多条,且这3000多条记录中,月收入属性也同时缺失,故直接删除。对于有1万多条缺失记录的月收入,采用线性回归和多重插补填补缺失值。进行线性回归时,可能由于其他自转载 2017-12-03 15:34:29 · 1250 阅读 · 0 评论 -
基于R语言构建的电影评分预测模型
评分系统是一种常见的推荐系统。现在使用R语言基于协同过滤算法来构建一个电影评分预测模型。一,前提准备1.R语言包:ggplot2包(绘图), recommenderlab包, reshape包(数据处理)install.packages("recommenderlab")install.转载 2017-12-03 15:29:52 · 4249 阅读 · 0 评论 -
Rstudio安装出现问题
今天在自己win10上安装Rstudio时,居然出现:Fatal error :ERROR system error 5( 拒接访问)......解决方案:打开文件所在目录,找到文件\bin,例如我的是:D:\RStudio-1.0.153\bin找到:然后右键选择管理员身份运行, 软件不兼容造成的。即可解决问题。原创 2017-09-22 22:55:40 · 23641 阅读 · 18 评论