Statistics and R
文章平均质量分 90
banlucainiao
立身以力学为先,力学以读书为本。 —郑耕老《劝学》
展开
-
在同一张图中画多条折线图,并添加图例
mydata 数据如下图:#在同一张图中画多条折线图并添加图例rm(list = ls(all = TRUE))mydata <- read.csv("test.csv",header = TRUE)spring_data <- mydata[which(mydata$season == "spring"),]x_names <- as.vector(spring_data$na...原创 2018-04-25 16:31:33 · 19664 阅读 · 0 评论 -
R中如何求众数
R中没有直接求众数的函数 q1 > table(q1) q1 3 4 5 6 7 8 1 1 3 2 2 1 > max(table(q1)) [1] 3 > table(q1) == max(table(q1)) q1 3 4 5 6 7 8 FALSE FALSE TRUE FALSE F转载 2017-12-09 14:50:41 · 5416 阅读 · 0 评论 -
Ubuntu下安装R语言和开发环境
【简介】R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。 【R语言的安装】官网:https://www.r-project.org/ 在Ubuntu上的安装一般都有两种方式: 1、直接到官网上下载安装包(tar.gz),然后依次安装即可。 2、在网速可以的情况下,利用在a转载 2017-11-30 16:29:58 · 804 阅读 · 0 评论 -
RStudio改变工作路径
1.用命令getwd() 获取当前工作路径setwd()设置工作路径需要注意的是:linux下相对路径 setwd("./Rsourse")上一级目录serwd("../")绝对路径setwd("/Users/renlan/data")windows下 相对路径setwd(".\\Rsourse") 上一级目录setwd("..\\") 绝对路径set转载 2017-04-05 19:26:03 · 7921 阅读 · 0 评论 -
R语言绘制热图——pheatmap
pheatmap简介: Pretty Heatmaps——Implementation of heatmaps that offers more control over dimensions and appearance.[plain] view plain copylibrary(pheatmap) #创建数据集test测试矩阵转载 2017-11-13 17:20:15 · 6132 阅读 · 0 评论 -
R读取一个数据框 Dataframe,删去其中的某一列
读取数据(txt文件,制表符分隔)E盘的Rdata是存放数据的目录 > mydf > mydf 回车 显示如下: X T1 T2 T3 T31 AA 8 5 4 62 AB 3 7 9 23 AC 2 6 1 04 AD 3 4 7 8转载 2017-11-03 18:45:55 · 20909 阅读 · 0 评论 -
使用Rstudio调试代码(debug)
点击行号的左侧,即可设置断点(或者按下Shift+F9),如果没有出现,反而出现下图的警告:那么只是因为我的坏习惯——写一段脚本测试的时候都是新建,但不save到本地,不喜欢保存,写的差不多了才开始取名字保存....写一个for循环测试下:test 0for(i in 1:9){ j i+2 test[i+1] test[i]+3 k i}将envi转载 2017-11-03 15:47:12 · 2240 阅读 · 0 评论 -
统计系本科生参考书整理
推荐的书单包括统计系本科生课程密切相关的中文书籍或者中译本:统计历史,统计学入门(非数学专业的统计书),数学分析,线性代数,概率论,数理统计,随机过程,R语言,大数据,金融统计,金融数学,生存分析,寿险精算,精算与风险模型。入选的标准是最近出版的书,而且最好有完整习题答案或者辅导书,利于自学。希望国内的初学者多看一些国内外大师(国内是院士级别,国外的学者是资转载 2017-04-06 11:35:53 · 2384 阅读 · 0 评论 -
R语言笔记完整版
R语言与数据挖掘:公式;数据;方法R语言特征对大小写敏感通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母)。不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字。基本命令要么是表达式(expressions)要么就是 赋值(assignments)。命令可以被 (;)隔开,或者另起一行。基本命令可以通过大括弧({和}) 放在一起构转载 2017-11-03 10:38:20 · 1934 阅读 · 0 评论 -
统计相关系数(3)——Kendall Rank(肯德尔等级)相关系数及MATLAB实现
Kendall Rank(肯德尔等级)相关系数1、简介在统计学中,肯德尔相关系数是以Maurice Kendall命名的,并经常用希腊字母τ(tau)表示其值。肯德尔相关系数是一个用来测量两个随机变量相关性的统计值。一个肯德尔检验是一个无参数假设检验,它使用计算而得的相关系数去检验两个随机变量的统计依赖性。肯德尔相关系数的取值范围在-1到1之间,当τ为1时,表示两个随机变量拥有一致转载 2017-01-13 11:51:32 · 3925 阅读 · 0 评论 -
统计相关系数(2)——Spearman Rank(斯皮尔曼等级)相关系数及MATLAB实现
Spearman Rank(斯皮尔曼等级)相关系数 1、简介在统计学中,斯皮尔曼等级相关系数以Charles Spearman命名,并经常用希腊字母ρ(rho)表示其值。斯皮尔曼等级相关系数用来估计两个变量X、Y之间的相关性,其中变量间的相关性可以使用单调函数来描述。如果两个变量取值的两个集合中均不存在相同的两个元素,那么,当其中一个变量可以表示为另一个变量的很好的单调函数转载 2017-01-13 11:49:35 · 1320 阅读 · 0 评论 -
统计相关系数(1)——Pearson(皮尔逊)相关系数及MATLAB实现
统计相关系数简介 由于使用的统计相关系数比较频繁,所以这里就利用几篇文章简单介绍一下这些系数。 相关系数:考察两个事物(在数据里我们称之为变量)之间的相关程度。 如果有两个变量:X、Y,最终计算出的相关系数的含义可以有如下理解:(1)、当相关系数为0时,X和Y两变量无关系。(2)、当X的值增大(减小),Y值增大(减小),两个转载 2017-01-13 11:48:17 · 1634 阅读 · 0 评论 -
R中的公式:使用
R中很多函数都接收公式(formula)类型的参数,比如lm。来看一个最简单的使用公式的例子:代码1> lm(y ~ x, data=dfrm)这里的公式是 y~ x,有这样几个意思:y和x之间的关系是线性的;y是因变量,x是自变量;x和y都是数据框dfrm中的列。这是最简单的使用。还有一种转载 2017-08-07 08:34:05 · 1897 阅读 · 0 评论 -
R语言相关系数的可视化
R语言corrplot包中的corrplot()函数,提供了一整套对相关系数可视化的包,可很容易就将文字结果转化为图片,使您的报告更加光彩夺目,颜值瞬间上升几个档次。ggplot2是R语言可视化大杀器,自带的mtcars数据集收录了32辆汽车在11个指标上的数据。下面就以mtcars为例,讲解相关系数的可视化。01相关系数的计算#在计算之前,首先安装两个转载 2017-08-06 16:21:11 · 23460 阅读 · 1 评论 -
在RStudio中更新R版本
install.packages("installr")require(installr)或者library("installr")updateR()就可以从rstudio里更新R转载自:https://www.zhihu.com/question/43471741转载 2017-08-06 16:02:47 · 22095 阅读 · 0 评论 -
将数据快速读入R—readr和readxl包
Hadley Wickham 和 RStudio团队写了一些新的R包,这些包对于每个需要在R中读入数据的人来说都是非常有用的。readr包提供了一些在R中读入文本数据的函数。readxl包提供了一些在R中读入Excel电子表格数据的函数。它们的读取速度远远超过你目前正在用的一些函数。readr包提供了若干函数在R中读取数据。我们通常会用R中的read.table家族函数来完成我们的数据读入转载 2017-12-01 18:02:06 · 4155 阅读 · 0 评论 -
最全的R语言聚类树形图画法
因为在写论文的时候用到,所以和大家分享。原地址为http://rstudio-pubs-static.s3.amazonaws.com/1876_df0bf890dd54461f98719b461d987c3d.html考虑到原地址可能失效,这里做简单的翻译和备份,有关聚类的R包可以参考cluster包和ape包以下是正文:The转载 2017-12-21 16:25:03 · 9959 阅读 · 1 评论 -
热门数据挖掘模型应用入门(一): LASSO回归
热门数据挖掘模型应用入门(一): LASSO回归目录: • 模型简介 • 线性回归 • Logistic回归 • Elstic Net理论简介 • 学习资料模型简介Kaggle网站(https://www.kaggle.com/)成立于2010年,是当下最流行的进行数据发掘和预测模型竞赛的在线平台。 与Kaggle合作的公司可以在网站上提出一个问题或者目标,同时提供相关数据,来自世界各地的计算机科...转载 2018-03-22 17:35:52 · 2869 阅读 · 0 评论 -
如何使用R语言的Boruta包进行特征选择
原文链接:http://dataunion.org/23013.html作者 Debrati引言变量选择是模型构建的一个重要方面,每个分析人员都必须学习。毕竟,它有助于排除相关变量、偏见和不必要噪音的限制来建立预测模型。许多分析新手认为,保持所有(或更多)的变量就能产生最佳的模型,因为你不会丢失任何信息。可悲的是,他们错了!从模型中删除一个变量,增加了模型的转载 2016-04-15 21:15:39 · 24926 阅读 · 6 评论 -
手把手教你在Windows环境下升级R
在Windows环境下,我们可以使用installr包自动将R升级到最新版本。并且可以安装软件。下面主要演示如何在Windows环境下升级R,并将旧版本安装的R包复制到更新版本的R。1、加载installr包install.packages("installr")library(installr)2、在“installr”菜单中选择“update R”3、in转载 2018-01-10 15:57:19 · 341 阅读 · 0 评论 -
降维中的特征选择
在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务。降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析。另一类是从原始维度中选择一些子集,即称为特征选择(Feature Selection),或者叫作最佳子集选择转载 2018-01-26 11:35:19 · 505 阅读 · 0 评论 -
R语言中管道操作 %>%, %T>%, %$% 和 %<>%
前言使用R语言进行数据处理是非常方便的,几行代码就可以完成很复杂的操作。但是,对于数据的连续处理,还是有人觉得代码不好看,要么是长长的函数嵌套调用,有点像Lisp感觉,括号包一切;要么就是每次操作赋值一个临时变量,啰嗦。为什么就不能像Linux的管道一样优雅呢?magrittr包在这样场景中被开发出来,通过管道的方式让连续复杂数据的处理操作,代码更短,更容易读,甚至一行代码可以搞定转载 2018-01-09 15:40:39 · 5768 阅读 · 0 评论 -
R语言删除数据框中含有缺失值NA的行或列
x是一个数据框1.删除数据框x中含有缺失值NA的行可以用下面方法(1)x (2)x 2.删除数据框x中含有缺失值NA的列可以用下面方法na_flag <- apply(is.na(x), 2, sum)x原创 2017-10-27 17:52:28 · 73527 阅读 · 1 评论 -
R语言安装R package的2种方法
安装R语言的包的方法:1. 自动安装(在线安装)在R的控制台,输入install.packages("gridExtra") # 安装 gridExtrainstall.packages("stepNorm", contriburl="http://www.your.url", dependencies = TRUE) # 安装 stepNorm若要指定转载 2017-12-06 17:21:57 · 2594 阅读 · 0 评论 -
[R语言] 加载和安装R包
现在有很多正被支持和维护的优秀机器学习R包。对于我们要进行的案例学习来说,也有很多我们需要的多维数据处理,文本分析,网络结构以及web交互的扩展包。我们将会在很大程度上依赖这些包的内置功能。在R中加载包是非常容易的,有两个函数可以做到:library 和 require。他们之间有一些细微的差别,但是对于在本书中的使用来说,主要的区别在于 require 会返回一个布尔值(True或Fal转载 2017-12-06 17:09:06 · 2998 阅读 · 0 评论 -
ubuntu安装最新版本的R
在ubuntu上安装最新版本的R软件,如果直接下载R的压缩文件比如R-3.4.3.tar.gz,解压安装时往往会遇到一些问题,主要是因为一些依赖包安装总是出错。在不是十分熟悉ubuntu系统的情况下,我们还可以直接去R官网https://mirrors.ustc.edu.cn/CRAN/下载如:r-base-core_3.4.3-1xenial0_amd64.deb的安装文件,再直接双击安装文件就原创 2017-12-06 16:30:18 · 3845 阅读 · 0 评论 -
R语言 | 关联规则
1.概念1.1 引论关联规则(AssociationRules)是无监督的机器学习方法,用于知识发现,而非预测。关联规则的学习器(learner)无需事先对训练数据进行打标签,因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估,一般都可以通过肉眼观测结果是否合理。 关联规则主要用来发现Pattern,最经典的应用是购物篮分析,当然其他转载 2017-12-06 10:49:10 · 1140 阅读 · 0 评论 -
R语言实现层次聚类分析
聚类分析:对样品或指标进行分类的一种分析方法,依据样本和指标已知特性进行分类。本节主要介绍R语言层次聚类分析,一共包括3个部分,每个部分包括一个具体实战例子。1、常规聚类过程:一、首先用dist()函数计算变量间距离dist.r = dist(data, method=” “)其中method包括6种方法,表示不同的距离测度:”euclidean”, “ma转载 2017-12-22 11:38:00 · 12052 阅读 · 2 评论 -
Python 和 R 数据分析/挖掘工具互查
写在前面在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种。当然,这篇博客还会随时更新(不会另起一篇,为了方便大家索引),请大家如果有需要收藏到书签中。如果大家还知道哪些常用的命令,也可以在评论中回复我。我可以添加进来,方便更多地人更方便的检索。也希望大家可以转载。如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便。转载 2017-12-22 11:21:16 · 482 阅读 · 0 评论 -
R语言:变量名称和字符串的转换
在R语言中,经常会遇到变量名称和字符串相互转换的问题。比如说,进行1000次循环运算,并将运算结果存储在1000个变量中,如x_1, x_2, ... , x_1000。这时候可以使用assign()函数,示例如下:> a错误: 找不到对象'a'> assign('a', 1)> a[1] 1 上面的例子将字符'a'转变为变量a,并将其赋值为1 。转载 2017-12-22 10:34:28 · 4515 阅读 · 0 评论 -
R语言中library()和require()的区别
While I was sitting in a conference room at UseR! 2014, I started counting the number of times that require() was used in the presentations, and would rant about it after I counted to ten. With drum转载 2017-08-06 15:59:20 · 15143 阅读 · 1 评论 -
R语言实践:排列与组合
组合数:choose(n, k)注意:从n个中选出k个阶乘(k!):factorial(k)排列数:choose(n, k) * factorial(k)幂 : ^余数: %%整数商:%/%==combn(x,n) -- 列出所有组合数矩阵t(combn(x,n)) -- 将结果转置,每行内容就是组合数> x <- 1:6> x[1] 1 2转载 2017-08-05 17:34:39 · 22441 阅读 · 2 评论 -
在ubuntu下安装最新版本的R软件
ubuntu默认自带的软件仓库中R版本总是会之后几个,有些包没办法用,所以安装最新版本的R-base是有必要的。步骤如下:1.添加安全密钥:sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E084DAB9复制代码2.添加完成,然后在CRAN中选择一个离自己地理位置最近的镜像站,路转载 2017-03-23 14:10:35 · 2929 阅读 · 0 评论 -
R语言列表循环添加元素
#列表循环添加元素lst <- list()n <- 1for(i in 1:10){ lst[[i]] <- n n <- n + 1}> lst[[1]][1] 1[[2]][1] 2[[3]][1] 3[[4]][1] 4[[5]][1] 5[[6]][1] 6[[7]][1] 7[[8]][1] 8[[9]][1] 9原创 2017-03-07 19:32:18 · 22258 阅读 · 0 评论 -
R语言Data Frame数据框常用操作
Data Frame一般被翻译为数据框,感觉就像是R中的表,由行和列组成,与Matrix不同的是,每个列可以是不同的数据类型,而Matrix是必须相同的。Data Frame每一列有列名,每一行也可以指定行名。如果不指定行名,那么就是从1开始自增的Sequence来标识每一行。初始化使用data.frame函数就可以初始化一个Data Frame。比如我们要初始化一个stu转载 2017-03-07 16:56:03 · 814 阅读 · 0 评论 -
5 Ways to Do 2D Histograms in R
IntroductionLately I was trying to put together some 2D histograms in R and found that there are many ways to do it, with directions on how to do so scattered across the internet in blogs, forums an转载 2017-03-10 12:10:16 · 911 阅读 · 0 评论 -
R语言循环添加列表元素
例如:lst <- vector("list",3) #vector("list",length)是创建一个含有length个元素的列表a <- matrix(data = c(5,8,6,8,9,12,1,2,3,4,5,6,13,0,5,7,21,4),nrow = 3)j <- 1for(i in 1:3){ lst[[i]] <- a[,j:(j+1)] j <- j +原创 2017-02-25 20:31:49 · 9994 阅读 · 0 评论 -
R语言-绘制ROC曲线
浅谈ROC曲线机器学习中很常见的一个大类就是二元分类器。很多二元分类器会产生一个概率预测值,而非仅仅是0-1预测值。我们可以使用某个临界点(例如0.5),以划分哪些预测为1,哪些预测为0。得到二元预测值后,可以构建一个混淆矩阵来评价二元分类器的预测效果。所有的训练数据都会落入这个矩阵中,而对角线上的数字代表了预测正确的数目,即True Positive+True N转载 2017-02-23 14:41:49 · 2379 阅读 · 0 评论 -
RStudio调试代码
Debugging with RStudioJonathan McPhersonJanuary 10, 2017 19:38FollowIntroductionEntering debug mode (stopping)Stopping on a lineStopping when a function executesStopp转载 2017-03-02 16:35:54 · 1413 阅读 · 0 评论 -
R语言处理缺失数据的高级方法
R语言处理缺失数据的高级方法标签: R2014-07-02 21:14 5436人阅读 评论(0) 收藏 举报 分类:R(63) 目录(?)[+]主要用到VIM和mice包[plain] view plain copy install.packages(c("VIM"转载 2016-09-30 17:07:46 · 1093 阅读 · 0 评论