R programing
文章平均质量分 55
Distrlili
这个作者很懒,什么都没留下…
展开
-
时间序列的总结
总结工作中用到的时间序列相关内容。1、指数平滑的理论指数平滑R实践# 基础包里的函数HoltWinters()# 非季节性简单指数平滑 — models level(即上面简单指数平滑法)fit <- HoltWinters(myts, beta=FALSE, gamma=FALSE)# 非季节性性趋势模型 - models level and trendfit <- ...原创 2020-03-04 23:49:19 · 1083 阅读 · 0 评论 -
plyr package
plyr包data(tips,package=”reshape2”)#加载数据集library(plyr)head(tips)基础函数汇总:aggregate(x=tipstip,by=list(tipstip,by=list(tipssex),FUN=mean)plyr包函数ddply(.data=tips,#拆分计算的对象 .variables="sex", #拆分的依据 .fu原创 2015-11-28 19:11:22 · 669 阅读 · 0 评论 -
apply函数族
普通函数族apply函数族汇总: tapply(X,INDEX,FUN=NULL,…,simplify=TRUE) apply(X,MARGIN,FUN) lapply(X,FUN) sapply(X,FUN,…,simplify=TRUE,USE.NAMES=TRUE) mapply(FUN,…,MoreArgs=NULL,simplify=TRUE,USE.NAMES=TRUE)...原创 2015-11-28 19:12:54 · 816 阅读 · 0 评论 -
正则表达式函数
R中常用的6个正则表达式函数split,grep,regexpr,gregexpr,sub,gsub1.strsplit()函数可以使用字符串或正则表达式来决定在哪里拆分字符串,将字符串划分为更小的段。 参数一是要拆分的字符串,参数二是用来将字符串分解成多个部分的字符值或正则表达式.该函数将分解后的子段返回的列表中语法:strsplit(x,split,fixed=F,perl=F,useByte原创 2015-11-30 19:25:27 · 1012 阅读 · 0 评论 -
hist()直方图
hist(rnorm(1000,sd=.1),freq=FALSE) 纵轴表示概率密度函数。可以用lines(density(x))画出核密度估计曲线。hist(x)#纵轴表示频数原创 2015-12-01 09:05:59 · 939 阅读 · 0 评论 -
diff()差分
语法 :(默认)diff(x, lag = 1, differences = 1, …) 若x是一个数值向量,则表示后一项减前一项,即滞后一阶差分; lag 表示滞后项, 如 x<- 1:10滞后2步,lag=2diff(x, lag=2)#等价于x[3]-x[1],x[4]-x[2],....x[10]-x[8].[1] 2 2 2 2 2 2 2 2滞后1步,lag=1diff(x原创 2015-12-01 09:37:39 · 8345 阅读 · 1 评论 -
统计模拟
统计模拟随机数分布 1.什么是中心极限定理? 2.二项分布模拟中心极限定理 (也称为拉普拉斯定理) #首先生成二项分布随机数m=100;n=10;p=0.25z <- rbinom(m,n,p) #对100个二项分布随机数进行标准化x <- (z-n*p)/sqrt(n*p*(1-p))hist(x,prob=T,main=paste("n=",n)) #添加正态曲线curve原创 2015-11-23 21:18:03 · 2372 阅读 · 0 评论 -
EM 算法在GMM中的应用
EM算法是在概率模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测到的隐变量。EM估计GMM参数 1)初始值: 方1:协方差矩阵Σk设为单位矩阵,每个模型比例的先验概率πk=1/N,均值uk设为随机数。方2:由k均值(k-means)聚类算法对样本进行聚类,利用各类的均值作为uk,并计算Σk,πk取各类样本占样本总数的比例。 一般选用方法一。 2)EM算法:E-Step :E就是E原创 2015-12-03 21:45:14 · 985 阅读 · 0 评论 -
ML for hackers 第一章笔记
本书的第一章并不像其他书的第一章,仅仅是简单的介绍本书,很多代码需要细细推敲。1.读入文件 数据文件是制表符分割文件(.tsv),因此用read.delim()读取。 每行的数据类型都是strings,没有表头。数据中有许多空元素,将它设置为NAufo <- read.delim("E:/ML/ufo_awesome.tsv", sep = "\t",原创 2016-03-16 19:42:45 · 639 阅读 · 0 评论 -
正则表达式
正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。 正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为元字符)组成的文字模原创 2015-11-30 19:08:12 · 366 阅读 · 0 评论 -
ML-for hackers 第二章笔记
本章讲解如何用R的基本方法做出摘要表和基本的可视化,并看出变化趋势;并介绍了分布曲线的特点以及分类。本章所说的数值摘要就是一些基本的统计项目:均值和众数、百分数和中位数、标准差和方差; 可视化工具:直方图、核密度估计以及散点图。准备知识: 作者认为把分析数据的工作分为两个独立的部分:探索和确认对新数据集进行操作前,首先要推断数据集每一列的类型,含义;一种常用的的变量编码方式:虚拟变量编码(d原创 2016-03-17 12:56:38 · 864 阅读 · 0 评论 -
text mining 笔记
tm包主要用来处理文本挖掘,对于文本挖掘,往往涉及语料库(corpus) 1.构建语料库的函数有VCorpus()和PCorpus() VCorpus()创建不稳定语料库 PCorpus()创建永久性语料库,不易毁坏,可以指向外部的语料库 用法: VCorpus(x, readerControl=list(reader=x$Defaultreader原创 2016-03-18 21:56:16 · 1265 阅读 · 0 评论 -
reshape2揉数据
1. melt() 融合函数,每个测量变量独占一行 ——宽格式数据变成长格式数据语法结构:melt(data,id.vars,measure.vars,varnames,value.name…) 其中data可以是数据框,数组或列表;1.数据类型为data.frame length(airqualityday)[1]153length(aqmday)[1] 153 length(aq原创 2016-05-04 20:52:56 · 822 阅读 · 0 评论 -
随机森林(random forest)
刚开始接触它,以为这个方法只能用于分类,细细研究之后发现它既可以用于分类,又可以用于回归,此外,还能降维。虽然都呈现出树状结构,但随机森林与CART树不同,后者只生成一颗树,而前者生成很多颗。由于随机森林会进行两次抽样,所以会生成很多随机树。当在基于某些属性对一个新的对象进行分类判别时,随机森林中的每一棵树都会给出自己的分类选择,并由此进行“投票”,森林整体的输出结果将会是票数最多的分类选项;而在回原创 2016-10-27 18:22:48 · 2304 阅读 · 0 评论 -
总结:中文分词 Rworseg包的应用
前面安装了Rwordseg包,这个包的工作方式: “Rwordseg”在分词之前会去掉文本中所有的(中文)符号,这样就会造成原分开的句子前后相连,本来分开的两个字也许连在了一起。另外一个中文分词包“jieba”分词包不会去掉任何符号,而且返回的结果里也会有符号。所有小文本准确性上可能”Rwordseg”会有误差。Rwordseg分词原理: Rwordseg是一个R环境下的中文分词工具,使用r原创 2016-11-19 22:04:41 · 1544 阅读 · 0 评论 -
总结:R中文分词(Rwordseg,rjava)包的安装
不知怎么,好像与文本挖掘有缘,今再次碰到了。倒腾了一晚上,这两个包算是安装成功了。 一般步骤:安装JAVA成功后,才能安装Rjava,Rwordseg包也才能安装成功。1.到oracle官网下载JDK,注意要和电脑配对,查明电脑是多少位的,也要和安装的R版本进行配对。2.安装Rtools,下载地址,当然也要与R匹配。参考Rtools安装配置3.进行环境配置。 点击JDK及Rtools的安装程序,原创 2016-11-19 20:38:26 · 1948 阅读 · 0 评论 -
R 中的字符函数
字符串长度函数: length()返回向量元素的个数、矩阵元素的个数、数据框字段数量和列表元素的个数a <- rnorm(100)b <- matrix(1:12,ncol=3)cc <- irisdd <- list(a=c("a","b","c"),b=1:10,c=mtcars)length(a);length(b);length(cc);length(...原创 2015-11-28 19:23:40 · 466 阅读 · 0 评论 -
三维数据图像
##三维数据图像contour()#函数产生一个等高线,表示三维数据,参数形式如下: 1.x值的向量(第一维) 2.y值的向量(第二维) 3.每对(x,y)坐标上标记某个矩阵的元素,记作z(第三维)image()#函数与contour()函数工作原理相似,只不过它能产生一个有颜色的图形,颜色随z值的不同而不同(热地图)persp()#函数可用来产生一个三维图,参数theta和参数phi可以控制原创 2015-11-28 19:14:16 · 2136 阅读 · 0 评论 -
数据结构与基本运算
复习篇- 1.数据类型 numeric:包含integers(整数型)和double-precision(双精度型).默认是双精度型数据character:这种数据形式是夹在双引号或单引号之间的字符串.logical:取TRUE or FALSEcomplex:形如a+bi型的复数raw(原始型):二进制形式保存数据missing value(默认值):当一个元素或值在统计...原创 2015-11-19 19:08:12 · 2460 阅读 · 0 评论 -
聚类分析
##了解基础知识聚类分析与判别分析都是研究分类问题,但两者有本质的区别。聚类分析一般是寻求客观分析的方法,事先对总体的几种类型无从知道,而判别分析则是在总体类型划分已知,各总体分布或来自各个总体训练样本的基础上,对当前的新样本用统计分析的方法判定它们属于哪个总体。1.聚类分析基本思想系统聚类法是将n个样品分成若干类的方法,其基本思想是:先将n个样品各自看成一类,然后根据类与类之间的距离,选择距离最小原创 2015-11-16 19:19:23 · 3197 阅读 · 0 评论 -
基础知识复习
基础知识复习cov(x,y) #计算向量x,y的协方差var(x,y)#计算向量x,y的协方差cor(x,y)#计算向量x,y的相关系数var(x) #计算向量x的方差cov(M) #计算矩阵M的协方差阵cor(M) #计算矩阵M的相关系数阵var(M)#计算每两列变量的协方差原创 2015-11-15 14:56:33 · 489 阅读 · 0 评论 -
函数与优化
练习: 编写一个函数计算向量的最大5个数的均值,并返回最大的5个值 思路: 1.对一个向量排序,用sort()函数,此函数默认从小到大排序;再用函数rev()转成由大到小的序列 2.提取前5个值,求均值 3.返回函数值vms <- function(x){ x1 = rev(sort(x)) x2 = sum(x1[1:5])/5 return(list(xbar=原创 2015-11-21 21:00:38 · 1471 阅读 · 0 评论 -
Principal component analysis
先整理下思路: 前两天学了下聚类分析,主要是系统聚类法和动态聚类法 系统聚类法主要是通过最近距离实现的,R函数hclust()函数,中间还有画谱系图以及确定聚类(rect.hclust)的情况 动态聚类法,之所以称为动态,因为我们是先初步分类,再根据某种最优原则不断修改迭代各个类别;R函数kmeans()函数下面接着薛毅老师的书《统计建模与R软件》[书有点了老,但是里面的理论思想还是值得看]主原创 2015-11-17 17:16:57 · 723 阅读 · 0 评论 -
函数outer()
outer(a,b,function)#结果返回的矩阵结构outer(1:6,1:6,paste) [,1] [,2] [,3] [,4] [,5] [,6] [1,] "1 1" "1 2" "1 3" "1 4" "1 5" "1 6"[2,] "2 1" "2 2" "2 3" "2 4" "2 5" "2 6"[3,] "3 1" "3 2" "3 3" "3 4"原创 2015-11-22 16:41:24 · 2657 阅读 · 0 评论 -
R read.table()报错:incomplete final line found by readTableHeader
s2 <- read.table("E:/TEMP/da1.txt")Warning message:In read.table("E:/TEMP/da1.txt") : incomplete final line found by readTableHeader 主要原因是最后一行没有换行(at the end of line press enter),意思就是换行到下一行的开头即可,就原创 2015-11-24 09:19:08 · 13703 阅读 · 2 评论 -
R_factor函数
status #表示有序型变量,用order=T指定,默认的排序规则是按字母顺序排sta > sta[1] poor improved excellent poor Levels: excellent #按字母顺序达不到要求时,可以指定levels选项来覆盖默认排序sta1 sta1[1] poor improved e原创 2015-11-18 14:58:30 · 3875 阅读 · 0 评论 -
生成模型,判别模型,以及朴素贝叶斯
首先从监督学习来认识 1.监督学习的主要任务就是学习一个模型,应用这一模型,对给定的输入预测相应的输出。这一模型的一般形式为决策函数:Y=f(X)Y=f(X) 或条件概率分布:P(Y|X)P(Y|X)。2.监督学习的方法又可以分为生成方法和判别方法,所学到的模型分布称为生成模型和判别模型。3.生成方法由数据学习联合概率分布P(X,Y)P(X,Y),然后求出条件概率分布P(Y|X)P(Y|X)作为原创 2015-12-07 18:10:15 · 6890 阅读 · 0 评论 -
判别模型:(LDA),QDA,KNN以及逻辑斯蒂回归(二)
四种方法的比较: 逻辑斯蒂和LDA方法是紧密相连的,都产生线性决策边界,两者只是在拟合过程中有一些差异,所以两者得到的结果应该是接近的,但当LDA的前提假设-观测服从每一类协方差矩阵都相同的高斯分布-成立时,LDA应该比逻辑斯蒂回归能提供更好的结果。不同的是:逻辑斯蒂决策边界的参数是通过极大似然估计出来的,而LDA决策边界是通过估计正态分布均值和方差计算出来的。KNN分类器对决策边界的形状没有做出原创 2015-12-06 21:36:20 · 8201 阅读 · 0 评论 -
判别模型:logistic,GDA,QDA(一)
前言准备: 输入变量可称呼为预测变量、自变量、属性变量、解释变量,有时候就称为变量; 输出变量称为:响应变量或因变量。本篇目的:预测定性响应变量的方法及分类,预测一个定性响应变量也指对观测分类(classifying),因为它涉及到将观测分配到一个类别中。大部分的分类方法先从预测定性变量不同类别的概率开始,将分类问题作为概率估计的一个结果。分类方法: 逻辑斯蒂回归(logistic regre原创 2015-12-06 19:28:29 · 9593 阅读 · 1 评论 -
Rstudio画图问题
“` Error in RStudioGD() : Shadow graphics device error: r error 4 (R code execution error) In addition: Warning messages:1:IngrDevices:::png(“C:/Users/ADMINI~1/AppData/Local/Temp/RtmpWYc8MO/95c0e原创 2015-11-19 19:48:23 · 12086 阅读 · 1 评论 -
R基础练习题
内积和外积: 两个向量的内积,即数量积或点积;若x,y是相同长度的向量x%*%y表示内积,R函数crossprod(x,y)也表示作内积; 两个向量的外积,即向量级或叉积,x%o%y表示外积,R中外积函数tcrossprod(x,y) 例:x <- c(1:4)y <- c(3:6)x%*%y [,1][1,] 50crossprod(x,y) [,1][1原创 2015-11-19 19:33:59 · 2438 阅读 · 0 评论 -
读入外部文件
Delimited files(符号分割文件)*based on the read.table()function read.table(file, header, sep = , quote = , dec = , row.names, col.names,as.is = , na.strings , colClasses , nrows =, skip = ,check.names = , fi原创 2015-11-24 17:43:10 · 696 阅读 · 0 评论 -
日期和时间对象
as.Date()以字符型数据读入,然后转化为以数值形式存储的日期变量。 读入字符型数据默认格式:yyyy-mm-dd – 指定格式的01/19/2010 as.character(dates) 将日期型变量转换为字符变量; Sys.Date()可以返回当天日期; data()可以返回当天的日期和时间; format(x,format=”ou原创 2015-11-24 17:43:49 · 422 阅读 · 0 评论 -
判别分析
应用多元分析多元分析是多变量的统计分析方法,主要包括回归分析、方差分析、判别分析、聚类分析、 主成分分析、因子分析和典型相关分析一、判别分析判别分析是用以判别个体所属群体的统计方法;判别分析又称为“分辨法”,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。常见的判别分析方法有:距离判别法、贝叶斯判别法和Fisher判别法.1).距离判原创 2015-11-15 15:15:26 · 8542 阅读 · 0 评论