2015年11月_Distrlili

原创正则表达式函数

R中常用的6个正则表达式函数split,grep,regexpr,gregexpr,sub,gsub1.strsplit()函数可以使用字符串或正则表达式来决定在哪里拆分字符串，将字符串划分为更小的段。参数一是要拆分的字符串,参数二是用来将字符串分解成多个部分的字符值或正则表达式.该函数将分解后的子段返回的列表中语法：strsplit(x,split,fixed=F,perl=F,useByte

2015-11-30 19:25:27 1008

原创正则表达式

正则表达式(regular expression)描述了一种字符串匹配的模式，可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。　　正则表达式是由普通字符（例如字符 a 到 z）以及特殊字符（称为元字符）组成的文字模

2015-11-30 19:08:12 360

原创 R 中的字符函数

字符串长度函数： length()返回向量元素的个数、矩阵元素的个数、数据框字段数量和列表元素的个数a <- rnorm(100)b <- matrix(1:12,ncol=3)cc <- irisdd <- list(a=c("a","b","c"),b=1:10,c=mtcars)length(a);length(b);length(cc);length(...

2015-11-28 19:23:40 461

原创三维数据图像

##三维数据图像contour()#函数产生一个等高线，表示三维数据，参数形式如下： 1.x值的向量(第一维) 2.y值的向量(第二维) 3.每对(x,y)坐标上标记某个矩阵的元素，记作z(第三维)image()#函数与contour()函数工作原理相似,只不过它能产生一个有颜色的图形,颜色随z值的不同而不同(热地图)persp()#函数可用来产生一个三维图,参数theta和参数phi可以控制

2015-11-28 19:14:16 2132

原创 apply函数族

普通函数族apply函数族汇总： tapply(X,INDEX,FUN=NULL,…,simplify=TRUE) apply(X,MARGIN,FUN) lapply(X,FUN) sapply(X,FUN,…,simplify=TRUE,USE.NAMES=TRUE) mapply(FUN,…,MoreArgs=NULL,simplify=TRUE,USE.NAMES=TRUE)...

2015-11-28 19:12:54 812

原创 plyr package

plyr包data(tips,package=”reshape2”)#加载数据集library(plyr)head(tips)基础函数汇总：aggregate(x=tipstip,by=list(tipstip,by=list(tipssex),FUN=mean)plyr包函数ddply(.data=tips,#拆分计算的对象 .variables="sex", #拆分的依据 .fu

2015-11-28 19:11:22 666

原创 dplyr学习笔记

#数据清理 ——dplyr package加载包 library(dplyr) library(hflights) #hflights是2011年从休斯顿起飞的航班创建本地数据框 tbl_df用于创建一个”local data frame”,相当于一个包装器,可以把data frame,sql数据类型转换成tbl对象。优势在于打印的时候显示比较智能化,根据显示屏分辨率来确定显

2015-11-26 11:55:38 2568

原创日期和时间对象

as.Date()以字符型数据读入,然后转化为以数值形式存储的日期变量。读入字符型数据默认格式：yyyy-mm-dd – 指定格式的01/19/2010 as.character(dates) 将日期型变量转换为字符变量； Sys.Date()可以返回当天日期； data()可以返回当天的日期和时间； format(x,format=”ou

2015-11-24 17:43:49 421

Delimited files（符号分割文件）*based on the read.table()function read.table(file, header, sep = , quote = , dec = , row.names, col.names,as.is = , na.strings , colClasses , nrows =, skip = ,check.names = , fi

2015-11-24 17:43:10 689

原创 R read.table()报错：incomplete final line found by readTableHeader

s2 <- read.table("E:/TEMP/da1.txt")Warning message:In read.table("E:/TEMP/da1.txt") : incomplete final line found by readTableHeader 主要原因是最后一行没有换行(at the end of line press enter),意思就是换行到下一行的开头即可，就

2015-11-24 09:19:08 13670 2

原创统计模拟

统计模拟随机数分布 1.什么是中心极限定理？ 2.二项分布模拟中心极限定理（也称为拉普拉斯定理） #首先生成二项分布随机数m=100;n=10;p=0.25z <- rbinom(m,n,p) #对100个二项分布随机数进行标准化x <- (z-n*p)/sqrt(n*p*(1-p))hist(x,prob=T,main=paste("n=",n)) #添加正态曲线curve

2015-11-23 21:18:03 2369

原创函数outer()

outer(a,b,function)#结果返回的矩阵结构outer(1:6,1:6,paste) [,1] [,2] [,3] [,4] [,5] [,6] [1,] "1 1" "1 2" "1 3" "1 4" "1 5" "1 6"[2,] "2 1" "2 2" "2 3" "2 4" "2 5" "2 6"[3,] "3 1" "3 2" "3 3" "3 4"

2015-11-22 16:41:24 2650

原创函数与优化

练习：编写一个函数计算向量的最大5个数的均值，并返回最大的5个值思路： 1.对一个向量排序，用sort()函数，此函数默认从小到大排序；再用函数rev()转成由大到小的序列 2.提取前5个值，求均值 3.返回函数值vms <- function(x){ x1 = rev(sort(x)) x2 = sum(x1[1:5])/5 return(list(xbar=

2015-11-21 21:00:38 1470

原创 Rstudio画图问题

“` Error in RStudioGD() : Shadow graphics device error: r error 4 (R code execution error) In addition: Warning messages:1:IngrDevices:::png(“C:/Users/ADMINI~1/AppData/Local/Temp/RtmpWYc8MO/95c0e

2015-11-19 19:48:23 12080 1

原创 R基础练习题

内积和外积：两个向量的内积，即数量积或点积；若x,y是相同长度的向量x%*%y表示内积,R函数crossprod(x,y)也表示作内积; 两个向量的外积，即向量级或叉积，x%o%y表示外积，R中外积函数tcrossprod(x,y) 例：x <- c(1:4)y <- c(3:6)x%*%y [,1][1,] 50crossprod(x,y) [,1][1

2015-11-19 19:33:59 2429

原创数据结构与基本运算

复习篇- 1.数据类型 numeric:包含integers(整数型)和double-precision(双精度型).默认是双精度型数据character：这种数据形式是夹在双引号或单引号之间的字符串.logical:取TRUE or FALSEcomplex:形如a+bi型的复数raw(原始型)：二进制形式保存数据missing value(默认值)：当一个元素或值在统计...

2015-11-19 19:08:12 2446

原创 R_factor函数

status #表示有序型变量，用order=T指定,默认的排序规则是按字母顺序排sta > sta[1] poor improved excellent poor Levels: excellent #按字母顺序达不到要求时，可以指定levels选项来覆盖默认排序sta1 sta1[1] poor improved e

2015-11-18 14:58:30 3866

原创 Principal component analysis

先整理下思路：前两天学了下聚类分析，主要是系统聚类法和动态聚类法系统聚类法主要是通过最近距离实现的，R函数hclust()函数，中间还有画谱系图以及确定聚类(rect.hclust)的情况动态聚类法，之所以称为动态，因为我们是先初步分类，再根据某种最优原则不断修改迭代各个类别；R函数kmeans()函数下面接着薛毅老师的书《统计建模与R软件》[书有点了老，但是里面的理论思想还是值得看]主

2015-11-17 17:16:57 722

原创聚类分析

##了解基础知识聚类分析与判别分析都是研究分类问题，但两者有本质的区别。聚类分析一般是寻求客观分析的方法，事先对总体的几种类型无从知道，而判别分析则是在总体类型划分已知，各总体分布或来自各个总体训练样本的基础上，对当前的新样本用统计分析的方法判定它们属于哪个总体。1.聚类分析基本思想系统聚类法是将n个样品分成若干类的方法，其基本思想是：先将n个样品各自看成一类，然后根据类与类之间的距离，选择距离最小

2015-11-16 19:19:23 3185

原创 markdown note

Markdown编辑器，是一种轻量级标记语言，创始人为John Gruber, 允许人们使用易读易写的纯文本格式编写文档，然后转换成有效的XHTML或HTML文档。1、简单语法(粗、斜体，换行)单个回车视为空格；连续回车才能分段。行尾加两个空格,这里-> 即可段内换行。这些文字显示为斜体这些文字显示为粗体2、程序代码的显示(两种方式)1.行的开头空4个空格，表示程序代

2015-11-15 17:47:36 692

原创判别分析

应用多元分析多元分析是多变量的统计分析方法，主要包括回归分析、方差分析、判别分析、聚类分析、主成分分析、因子分析和典型相关分析一、判别分析判别分析是用以判别个体所属群体的统计方法;判别分析又称为“分辨法”，是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。常见的判别分析方法有：距离判别法、贝叶斯判别法和Fisher判别法.1).距离判

2015-11-15 15:15:26 8536

原创基础知识复习

基础知识复习cov(x,y) #计算向量x,y的协方差var(x,y)#计算向量x,y的协方差cor(x,y)#计算向量x,y的相关系数var(x) #计算向量x的方差cov(M) #计算矩阵M的协方差阵cor(M) #计算矩阵M的相关系数阵var(M)#计算每两列变量的协方差

2015-11-15 14:56:33 486

翻译 CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

2015-11-15 14:52:26 375

G090909的博客