r语言
文章平均质量分 51
Tanya_girl
小分析师一枚
展开
-
用r挖掘大概流程
无意搜到一个样本,收藏一下,原文链接:R语言机器学习之caret包运用http://f.dataguru.cn/thread-478761-1-1.html(出处: 炼数成金)原创 2015-11-21 21:29:09 · 401 阅读 · 0 评论 -
R语言中时间格式使用总结
原文地址:http://blog.sina.com.cn/s/blog_7d8326290102w0rl.html对于时间格式方面处理,每种语言多有自己的特定的函数或者类来处理,SAS里面依赖于put、input 、putn()、intnx、intck、today()等函数来处理,python里面主要依赖于time和datetime两个包,java里面SimpleDateForma转载 2017-03-27 21:11:55 · 2088 阅读 · 0 评论 -
R语言中包的操作
转载地址:http://blog.sina.com.cn/s/blog_5de124240101q8ie.html1. 列出包所在库的路径.libPaths()[1] "C:/Program Files/R/R-3.0.2/library"2.安装包,括号里面包的名称要加英文引号,在列出的CRAN镜像站点列表中选择一个进行下载,我一般选的是China(Hefei)insta转载 2017-03-24 14:47:56 · 2024 阅读 · 0 评论 -
R语言时间处理
原来有两种,一种是日期,一种是时间:链接:点击打开链接R语言的基础包中提供了两种类型的时间数据,一类是Date日期数据,它不包括时间和时区信息,另一类是POSIXct/POSIXlt类型数据,其中包括了日期、时间和时区信息。基本总结如下:日期data,存储的是天;时间POSIXct 存储的是秒,POSIXlt 打散,年月日不同;日期-时间=不可运算。一般来讲,R语言转载 2017-04-13 17:37:16 · 15603 阅读 · 0 评论 -
时间序列分析之自相关函数图
datadata$dtdata$dtlibrary(dplyr)length(data[,1]) #1613行数据#生成每天时间dates#dates2#dates2$dates#head(dates2)#head(data)#data3ndatesn1is.ts(n)acf(n,type="correlation原创 2017-06-08 20:52:13 · 22644 阅读 · 0 评论 -
中文分词Rwordseg
下载安装方法:install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")注意在之前要安装好JAVA,并配置后JAVA环境 1. 分词操作:(1)segmentCN(strwords)> segmentCN("你好北京")[1] "你好" "北京" (2)如果输入参转载 2017-07-05 18:12:47 · 601 阅读 · 0 评论 -
ggplot2分面展示竞品
setwd("C:/Users/zhangluying/Desktop/项目/BIGINVEST/竞品利率监测/R画图")datastr(data)data$firstlibrary(ggplot2)library(reshape)str(data$date)#data$datedata$producthead(data)#混合低利率和高利率图#原创 2017-09-25 18:55:02 · 420 阅读 · 0 评论 -
ggplot2
之前一直觉得算法666,学习重点应该放在各种花样算法中,工作中老大让一天分析多个东西的话,来不及细究,只能用excel出结论,才发现自己只会画个简单的线形图柱状图之类,弱爆了…… 画图如此重要……想要的图出不来,憋死了……,转战ggplot转载地址:点击打开链接关于ggplot2包的基本功能介绍(下)黄锐5 个月前7. Statistical transfo转载 2017-09-20 15:54:59 · 1389 阅读 · 0 评论 -
r画中国地图
step1: install.packages("maptools")step2:library(maptools)step3:下载中国GIS数据(http://cos.name/wp-content/uploads/2009/07/chinaprovinceborderdata_tar_gz.zip),解压到我的文档中(默认的R工作空间) 可以用getwd()查看原创 2017-09-21 11:52:28 · 1043 阅读 · 1 评论 -
R判断逻辑回归参数共线性
方差膨胀因子(Variance Inflation Factor,VIF):是指解释变量之间存在多重共线性时的方差与不存在多重共线性时的方差之比。容忍度的倒数,VIF越大,显示共线性越严重。经验判断方法表明:当0多重共线性;当10≤VIFsetwd('C:/Users/zhangluying/Desktop/建模/数据')library(dplyr)library(pR原创 2016-12-16 22:45:31 · 6601 阅读 · 0 评论 -
广义线性模型 R--glm函数
转载http://www.cnblogs.com/runner-ljt/转载 2016-11-25 18:52:15 · 6404 阅读 · 0 评论 -
kaggle泰坦尼克号python和r
之前用了一阵子spss modeler,自己整了r,后来发现国内高手都用python,发现了网上两篇类似的python和r写的文章,这里加上原文链接,可以一起学习:1:python版本链接:http://blog.csdn.net/longxinchen_ml/article/details/497981392:r语言版本链接:http://blog.csdn.net/xmuecor/ar原创 2015-11-21 13:45:21 · 2378 阅读 · 0 评论 -
R语言安装包地址
今天安装包graphics总是报错,想手动安装package ‘graphics’ is in use and will not be installed,没搞定,想着手动安装,找到R安装包地址,链接:https://cran.r-project.org/web/packages/available_packages_by_name.html#available-packages-G原创 2015-11-21 13:37:58 · 1561 阅读 · 1 评论 -
随机森林建模
在看datacastle的建模大赛,用r写了随机森林的二分类,上次代码用py跑的,虽然跑出来在test上还可以,但是提交不理想啊,这里想用交叉验证,但是跑了一天一夜也木有出来,还是把代码先保留下来吧,希望看到的人指正rm(list=ls())setwd("D:\\competitions\\datacastle\\p2p")train_xtrain_yt原创 2015-12-28 09:53:38 · 2819 阅读 · 0 评论 -
R读书笔记之特征工程(一)空值处理
在特征处理中,会有空值的删除或者填充。一:删除 1一般删除是最简单的,用na.omit(data)就搞定,但是太粗暴了。 2若是有的观测量空缺值太多的话,确实需要删除,因为用别的方法填充反而会导致模型偏差。 那么肿么统计观测量的空值的个数捏?可以参考函数:apply(dataframe,1,function(x) sum(is.na(x))),其中is.na()返原创 2015-12-17 00:09:28 · 4276 阅读 · 1 评论 -
关于R语言中set.seed()
在r中取sample时候,经常会有set.seed(某数),经常看见取值很大,其实这里无论括号里取值是多少,想要上下两次取值一样,都需要在每次取值前输入同样的set.seed(某数),才能保证两次取值相同。set.seed(1)x<-rnorm(5)set.seed(1)y这样,x和y的值能保持一致原创 2015-12-21 22:08:49 · 9888 阅读 · 0 评论 -
R语言并行计算(1)
终于知道了r的并行计算,哈哈,希望运行快,转载连接:1点击打开链接2 点击打开链接,这里只粘贴了第二个连接众所周知,在大数据时代R语言有两个弱项,其中一个就是只能使用单线程计算。但是在2.14版本之后,R就内置了parallel包,强化了R的并行计算能力。parallel包实际上整合了之前已经比较成熟的snow包和multicore包。前者已经在之前的文章中介绍过了,而后者无法在win转载 2015-12-23 16:18:39 · 1316 阅读 · 0 评论 -
r语言n折交叉验证
原文点击打开链接,只是在这里加上了注释myfuc remain cllength(x)/n个样本,也就是每个元素对应 着length(x)/n个不重复的样本 a for(i in 1:10){ #对1到10原创 2015-12-08 17:33:45 · 20353 阅读 · 2 评论 -
随机抽样(分层抽样)和朴素贝叶斯分类
这里用iris数据集分三层抽样install.packages("e1071");#安装朴素贝叶斯预测包install.packages("sampling")library(sampling);library(e1071);sample#无放回抽样,(数据集,抽样依据的列名,每层需要抽的观测数,有放回抽样,不加额外描述)trai原创 2016-05-20 16:17:42 · 965 阅读 · 0 评论 -
R语言 地图漫谈
原文地址:点击打开链接R语言有着令人称赞的可视化能力,在这篇文章中,我们试着用R语言来展示地图数据,也就是绘制地图,并在地图上展示数据的分布。 由于R语言所带的中国地图过于老旧,因此我们通过寻找外部地图数据文件,并在R中载入并展示地图。 我们所用的地图数据文件是Shapefile格式的文件,它可以存储地理要素的几何位置和属性信息,Shapefile中的地理要素可通过点、线、面转载 2017-09-21 18:56:32 · 3599 阅读 · 0 评论