数据分析-R
文章平均质量分 51
Gavin姓陈
管理科学、数据科学、计算机科学。
展开
-
【决策树】ID3算法理解与R语言实现
用R语言自带包实现决策树,以及自定义函数来实现决策树算法。原创 2017-12-20 18:54:09 · 8944 阅读 · 1 评论 -
R语言中的多维数组、矩阵、列表、数据框
在R中,数组(Arrary)可以看做是带多个下标的相同类型的元素集合,常用的是数值型的数组如矩阵,也可以是别的类型的数组,比如字符型,逻辑型等。Dim属性是数组中很重要的属性,也叫维数向量,当维数向量有两个值时代表为矩阵,有一个值时代表为一维数组。#使用向量生成数组或者矩阵c<-1:12c# [1] 1 2 3 4 5 6 7 8 9 10 11 12dim(c)&...原创 2018-04-10 20:29:28 · 9471 阅读 · 1 评论 -
R语言中的控制流函数
文本包含ifelse、while、switch、repeat函数的使用#条件语句 if else x<-c(1,2,3,-5)#如果x中存在负数,那么x赋值为y,否则将x+1 赋值给yif(any(x<0)) y<-x else y<-x+1y# [1] 1 2 3 -5#这两者的语句是类似的y<-if(any(x<0)) x else...原创 2018-04-11 18:43:39 · 1802 阅读 · 1 评论 -
R语言语法及建模合集
点击下列超链接可进入博客:一、语法篇:R语言常用包分类R语言数据导入导出总结R语言数据探索功能总结R语言中的离群点检测方法R语言中的向量使用合集R语言中的因子类型R语言中的对象以及它的模式与属性R语言中的列表和数据框R语言中的控制流函数R语言中的函数定义二、画图篇:三、统计篇:使用R语言进行参数估计使用R语言进行假设检验使用R语言进行方差分析使用R语言进行回归分析使用R语言进行回归诊断四、数据...原创 2018-04-04 19:50:17 · 5268 阅读 · 1 评论 -
R语言数据分析案例合集
案例一、汽车数据可视化分析(R)-ggplot2案例二、房价指数的分析与预测-时间序列原创 2018-04-04 19:54:36 · 62341 阅读 · 3 评论 -
R语言plot函数参数合集
最近用R语言画图,plot 函数是用的最多的函数,而他的参数非常繁多,由此总结一下,以供后续方便查阅。plot(x, y = NULL, type = "p", xlim = NULL, ylim = NULL,log = "", main = NULL, sub = NULL, xlab = NULL, ylab = NULL,ann = par("ann"), axes = TRUE, fra...转载 2018-04-06 00:20:47 · 90188 阅读 · 0 评论 -
R语言数据导入导出总结
#本次学习关键词 save()、load()、read.csv()、write.csv()、read.xlsx()、write.xlsx()#odbcConnect、readChar、sqlQuerystr(iris) #查看数据结构类型、观测值数、列数、以及每个列的大体概况names(iris)#查看数据结构中的列名,及赋值列名#R数据的保存与加载setwd("/Users/gavin...原创 2018-04-06 13:01:33 · 24588 阅读 · 3 评论 -
R语言数据探索功能总结
#本次技能点:#str dim attribute head tail summary quantile hist cov cor aggregate pairs boxplot scatterplot3d plot3d heatmap#使用iris数据集进行数据探索的练习#本次练习点:#str dim attribute head tail summary quantile hist...原创 2018-04-06 16:13:22 · 2213 阅读 · 0 评论 -
使用R语言进行决策树建模
关于决策树的理解及自定义代码实现请参考我的另一个博客:数据挖掘常用算法理解与R语言实现(系列待完成)本次技能点:训练集和测试集的选取决策树构建与减值决策树的print和plot预测值与实际值关系描述用到的函数或包:ctree(party包),rpart(rpart包),set.seed、sample、predict、cptable、cp属性、prune、xerror属性。代码:#一、使用part包...原创 2018-04-06 16:25:03 · 14841 阅读 · 1 评论 -
使用R语言进行回归分析
1、线性回归的基本函数lm<-lm(formula,data=data.frame)#其中formula为回归公式,data为数据源数据框#例如:lm<-lm(y~x1+x2,production)2、与线性模型相关的函数print()原本为打印函数,当参数为线性模型对象时,会打印出模型中的系数以及截距值。基于线性模型操作的对象有很多,比如:predict、summary、...原创 2018-04-06 21:26:11 · 21544 阅读 · 2 评论 -
使用R语言进行回归诊断
人们提出所谓回归诊断的问题,其主要内容有:关于误差项是否满足:独立性、等方差性、正态性。选择线性模型是否合适是否存在异常样本回归分析的结果是否对某些样本依赖过重,也就是回归模型是否具有稳定性自变量之间是否存在高度相关,即是否存在多重共线性下面我们通过一个小例子来大体认识一下回归诊断的重要性。一、使用散点图显示变量之间的关系及修正过程:Anscombe<-data.frame( X =c(...原创 2018-04-07 10:59:02 · 11287 阅读 · 0 评论 -
R语言中的因子类型
一、Factor函数#函数factor可以把一个向量编码为一个因子,其一般形式为:#factor(x,levels=sort(unique(x),na.last=TRUE),labels,exculde=NA,order=FALSE)#其中x是向量,levels是水平,可以自行指定各离散的取值,不指定时由x的不同值来表示,labels可以用来指定各水平的标签#不指定时用各离散取值的对应字符串...原创 2018-04-10 18:30:08 · 10642 阅读 · 1 评论 -
R语言中的对象以及它的模式与属性
#R中的对象与他的模式和属性#--------固有属性mode和length#mode 即向量的类型,可以分为数值型、逻辑型、复数型、字符型mode(c(1,2,3))# [1] "numeric"mode(c(1,2,3)<3)# [1] "logical"#使用is.character可以判断某个对象的类型is.character(c("1","2")) #另外有is...原创 2018-04-10 16:11:52 · 3801 阅读 · 1 评论 -
R语言中的向量使用合集
#---r中向量相关的操作#----数字型向量#赋值x<-c(1,2,3)assign("x",c(1,2,3))y<-c(x,2,x)# > y# [1] 1 2 3 2 1 2 3#向量的运算x<-c(1,2,3);y<-c(2,3,4)v1<-2*x+x*y+1# > v1# [1] 5 11 19v2<-2...原创 2018-04-10 16:09:15 · 11497 阅读 · 0 评论 -
【聚类分析】Kmeans算法理解及R语言实现
一、基本解释(算法思想、名词解释)算法:1、在总体中随机选择k个值作为初始质心。2、计算每个样本点到每个质心的距离(一般为欧式距离),将每个点指派到最近的质心点,形成K个聚类。3、重新这个簇的样本点的平均值,作为簇的新质心。4、重复2-3直至质心不再发生变化,或者只发生很微小的变化。名词解释:关于距离的定义请参考:数学算法中的各种距离二、数学推导原创 2017-12-19 14:58:45 · 26098 阅读 · 2 评论 -
【R语言学习】R-Studio 快捷键+入门常见操作
1、如何在绘图时将绘图区域分割成特定结构主要提示:par的 mfrow 参数,plot中par类型的参数原创 2017-12-16 10:38:19 · 6572 阅读 · 0 评论 -
R studio 快捷键 Mac
cmd + enter 运行选中行或光标所在行cmd+ctrl+enter 运行当前文件所有行ctrl+L 清除输出行内容原创 2017-12-14 10:33:11 · 3182 阅读 · 0 评论 -
数学算法中的各种距离
摘自:薛毅的R_modeling原创 2017-12-18 21:29:34 · 1045 阅读 · 0 评论 -
R语言常用包分类
R语言常用函数包转载 2018-01-03 16:09:27 · 4099 阅读 · 0 评论 -
R语言绘图样式设置(符号、线条、颜色、文本属性)
设置图像样式有两种方法,一种是全局修改,一种只针对一幅图片有效。全局修改[python] view plain copya<-c(1:10) #全局修改 old_par<-par(no.readonly=TRUE) #记录默认样式到变量old_par中 par(lty=2,pch=17) #设置线型lty=2虚线,pch=17实心三角形,键值对的方式...转载 2018-02-08 21:03:30 · 88580 阅读 · 0 评论 -
R语言中的分屏函数
1、使用par(mfrow=c(2,2))即可 (论文中的使用方法)[plain] view plain copy>par(mfrow=c(3,3)) > plot(Nile) > plot(Nile) > plot(Nile) > plot(Nile) > plot(Nile) > plot(Nile) > plot(Nile) &...转载 2018-03-09 10:41:50 · 5864 阅读 · 0 评论 -
R语言中Legend 函数的参数详解
legend(x, y = NULL, legend, fill = NULL, col = par("col"),border = "black", lty, lwd, pch,angle = 45, density = NULL, bty = "o", bg = par("bg"),box.lwd = par("lwd"), box.lty...原创 2018-03-09 13:43:52 · 70889 阅读 · 1 评论 -
R语言中的离群点检测方法
本文中将介绍单变量离群点检测、通过聚类检测离群点的例子最后演示从时间序列中检测离群点。一、单变量和多变量的离群点检验。set.seed(123)data<-rnorm(100)#随机生成100个符合正态分布的随机数summary(data)plot(density(data)) #打印出data的概率密度函数#打印出data箱线图,从箱线图中可以看到地步有一个离群值boxplot(...原创 2018-04-07 16:13:11 · 18784 阅读 · 1 评论 -
使用R语言进行时间序列分析
一、时间序列的定义时间序列是将统一统计值按照时间发生的先后顺序来进行排列,时间序列分析的主要目的是根据已有数据对未来进行预测。一个稳定的时间序列中常常包含两个部分,那么就是:有规律的时间序列+噪声。所以,在以下的方法中,主要的目的就是去过滤噪声值,让我们的时间序列更加的有分析意义。二、时间序列的预处理1、平稳性检验:拿到一个时间序列之后,我们首先要对其稳定性进行判断,只有非白噪声的稳定性时间序列...原创 2018-04-08 10:50:32 · 118464 阅读 · 2 评论 -
ScienceCookBook-汽车数据可视化分析(R)总结
1、本次案例概述(案例描述、代码地址)获取近几年汽车行业总体数据,并对其进行一定整理。重点分析燃油使用率(MPG),发动机类型(cylinder)、传动类型(Trany)、排量(displ)供应商以及其相互之间的关系,来发现近年来汽车生产销售的趋势或规律。代码展示:代码下载:https://github.com/HelloMrChen/DataScienceCookbook/tree/master...原创 2018-04-02 10:38:29 · 23466 阅读 · 27 评论 -
【数据挖掘】使用R语言进行聚类分析
本文主要介绍在R语言中使用k-means和K-Medoids进行聚类分析的方法。一、首先介绍下聚类分析中主要的算法:lK-均值聚类(K-Means)十大经典算法l K-中心点聚类(K-Medoids)l 密度聚类(DBSCAN)l 系谱聚类(HC)l期望最大化聚类(EM)十大经典算法聚类算法软件包主要函数K-meansstatskmeans()K-Medoidsclust...原创 2018-04-09 15:29:15 · 91762 阅读 · 1 评论 -
R语言中时间序列日期设置
时间序列的不同时间分段设置1. 普通的时间序列:年、月、季 1 myserises<-ts(data,start=,end=,frequency=)#其中frequency=1代表年;frequency=12代表月;frequency=4代表季度数据 2. 如果以天为单位的时间序列1 t<-ts(1:365,frequency=1,start=as.Date("201...转载 2018-11-23 11:41:19 · 31682 阅读 · 3 评论