R
文章平均质量分 75
余音丶未散
J2EE,机器学习,Hadoop,Spark,时间序列分析
展开
-
R可视化绘图三-recharts(更新)
官方文档https://madlogos.github.io/recharts/index_cn.html#tune-series安装if (!require(devtools)) library(devtools)install_github("madlogos/recharts")例子library(recharts)echartr(iris, ~Sep...原创 2016-11-30 17:25:18 · 2786 阅读 · 1 评论 -
机器学习与R之BP神经网络
归一化normalize return((x - min(x)) / (max(x) - min(x)))}lapply应用到数据框每一列concrete_norm library(neuralnet)用法concrete_model ash + water + superplastic +原创 2016-07-26 17:32:50 · 2946 阅读 · 0 评论 -
机器学习与R之决策树C50算法
决策树经验熵是针对所有样本的分类结果而言经验条件熵是针对每个特征里每个特征样本分类结果之特征样本比例和基尼不纯度简单地说就是从一个数据集中随机选取子项,度量其被错误分类到其他分组里的概率决策树算法使用轴平行分割来表现具体一定的局限性C5.0算法--可以处理数值型和缺失 只使用最重要的特征--使用的熵度量-可以自动修剪枝划分数据集set.seed(123) #原创 2016-07-02 11:39:10 · 10825 阅读 · 1 评论 -
机器学习与R之回归树CART与模型树M5
根据SDR标准偏差减少-来选择特征sdr_a 回归树CART-叶子节点利用的是均值rpart(formula, data, weights, subset, na.action = na.rpart, method, model = FALSE, x = FALSE, y = TRUE, parms, control, cost, ...)control算法细节原创 2016-07-23 18:52:04 · 8850 阅读 · 0 评论 -
机器学习与R笔记之线性回归
普通最小二乘法OLSy=ax+b f(e)=sum((y-y')^2) b=cor(x,y)/var(x) #证明省略 协方差/方差a=mean(y)-b*mean(x)person相关系数R=cor(x,y)多元线性回归Y=XB+EYBE为向量X为带偏执矩阵--最小二次法求系数B=solve((t(x)%*%x))%*%t(x)%*%y估计B的函原创 2016-07-23 18:00:46 · 1317 阅读 · 1 评论 -
机器学习与R之朴素贝叶斯分类器
朴素贝叶斯1联合概率分布p(x,y)=p(y)P(x|y) 或者p(A交B)=p(A)xp(B) p(A交B)不容易求,假设条件独立拆分成两个事件的乘积2基本假设条件独立性3利用贝叶斯定理 p(y|x)=P(x,y)/p(x)=p(y)P(x|y)/sum(y-i)[p(y)P(x|y)]y=max p(y)P(x|y)贝叶斯决策理论要求计算两个概率p1(x,y),p2原创 2016-06-28 10:34:18 · 4042 阅读 · 4 评论 -
机器学习与R之KNN
k近邻法与kd树(与本文基本无关)为了提高k近邻搜索的效率,可以考虑使用特殊的结构存储训练数据,以减少计算距离的次数。具体方法有很多,这里介绍kd树方法参考http://blog.csdn.net/qll125596718/article/details/8426458R语言KNN实现K常用方法 K=训练数据数量的平方根字符变量利用哑变量编码,eg:0/1rm(li原创 2016-06-25 17:36:16 · 1506 阅读 · 0 评论 -
R多元线性回归
多元线性回归 统计建模与R软件-薛毅书p325选择自变量建立多元线性模型> data(swiss)> s=lm(Fertility~ .,data=swiss) #除因变量Fertility其他所有当自变量> print(s)模型汇总信息> summary(s) #查看相关性系数逐步回归:向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为原创 2016-05-31 15:56:18 · 1304 阅读 · 0 评论 -
R分类
分类传统意义下的分类:生物物种预测:天气预报决策:yes or no分类的传统模型常见分类模型与算法 线性判别法 距离判别法 贝叶斯分类器 决策树 支持向量机(SVM) 神经网络线性判别法(Fisher)G=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)x1=c(-1.9,-6.9,5.2,5.0原创 2016-05-31 16:17:37 · 953 阅读 · 0 评论 -
机器学习与R之支持向量机svm-svr(下)
e1071包的svm()函数library(lattice) xyplot(Petal.Length ~ Petal.Width, data = iris, groups = Species, auto.key=list(corner=c(1,0))) #查看散点图第一种是根据既定公式建立模型svm(formula, data= NULL, subset, na.action原创 2016-07-28 18:04:32 · 8498 阅读 · 0 评论 -
机器学习与R之支持向量机svm(上)
支持向量机svm e1071包的svm()函数提供R和LIBSVM的接口library(kernlab)letter_classifier kernel = "vanilladot",C = 1)kernel非线性映射函数(rbfdot径向基polydot多项式tanhdot双曲正切vanilladot线性函数等等)C用于原创 2016-07-26 18:05:26 · 1848 阅读 · 0 评论 -
R语言实用函数整理
初始化options(stringsAsFactors=F,scipen=99)rm(list=ls());gc()getwd() 获得工作路径信息setwd() 设置工作路径清空控制台快捷键control+L获取目录下所有文件名filenames=dir("/Users/yuyin/Downloads/数据/Excel数据")##or推荐第二种s...原创 2017-03-20 22:12:33 · 5369 阅读 · 0 评论 -
R小波分解
R小波分解install.packages("wavelets")原创 2016-06-10 21:08:26 · 3924 阅读 · 1 评论 -
R可视化绘图三-recharts
recharts安装 win7 成功library(RCurl)library(httr)library(htmltools)安装Rtoolsinstall.packages('devtools')library(devtools)install_github('yihui/recharts')ubuntu下安装R包出错 最后成功ERROR: con原创 2016-06-04 10:10:20 · 10262 阅读 · 14 评论 -
R语言随机森林
R语言随机森林回归树模型(CART)决策树是一种倒立的树结构,它由内部节点、叶子节点和边组成。其中最上面的一个节点叫根节点。 构造一棵决策树需要一个训练集,一些例子组成,每个例子用一些属性(或特征)和一个类别标记来描述。构造决策树的目的是找出属性和类别间的关系,一旦这种关系找出,就能用它来预测将来未知类别的记录的类别。这种具有预测功能的系统叫决策树分类器。其算法的优点在于:1)可以生成可以原创 2016-06-11 17:16:00 · 5397 阅读 · 0 评论 -
R-k折交叉验证
training <-iris#抽样方法#ind<-sample(2,nrow(training),replace=TRUE,prob=c(0.7,0.3)) #对数据分成两部分,70%训练数据,30%检测数据nrow(training)行数#traindata<- training [ind==1,] #训练集#testdata<- training [ind==2,] #测试集原创 2016-08-10 18:08:09 · 22715 阅读 · 8 评论 -
R语言-data.table包使用(方便自己使用参考)
R语言-data.table包它的fread函数读取1G的CSV文件才用了20s左右。其他对data.frame的操作,也快了N倍特点data.table(DT)的操作语句类似于SQL,DT[i, j, by]中的i, j, by 对应着SQL语句的 i=where, j=select, by=group by。所以DT中的i, j并不是只是像data.frame只代表着行列,它更转载 2016-08-19 10:57:35 · 8519 阅读 · 0 评论 -
R语言LR逻辑回归实例
二分类实例去掉setosa类index <- which(iris$Species == 'setosa')iris <- iris[- index,]training <-iris #抽样方法 ind<-sample(2,nrow(training),replace=TRUE,prob=c(0.7,0.3)) #对数据分成两部分,70%训练数据,30%检测数据nrow(trai原创 2016-08-29 10:44:07 · 6990 阅读 · 0 评论 -
R聚类分析2
R聚类2凝聚层次聚类(Agglomerative hierarchical method)和K均值聚类(K-Means)层次聚类hclustdata=iris[,-5]dist.e=dist(data,method='euclidean')heatmap(as.matrix(dist.e),labRow = F, labCol = F)#计算类间距离:最短距离法、最长距离法、类平均法原创 2016-08-06 17:24:24 · 1548 阅读 · 0 评论 -
基于R语言的模型组合
组合预测模型---基于R语言的模型组合 算术平均法、 最优权数法、 方差倒数法模型中各参数的 t 值均显著 ,且通过 F 检验和拟合忧度检验c=c(1:20)b=c-0.1a=c-0.3方差倒数法e1=sum((c-b)^2)e2=sum((c-a)^2)w1=(1/e1)/(1/e1+1/e2)w2=(1/e2)/(1/e1+1/e2)原创 2016-06-01 20:44:58 · 3123 阅读 · 1 评论 -
R聚类
聚类关键度量指标:距离距离的定义常用距离(薛毅书P469)绝对值距离 manhattan欧氏距离Euclide euclidean闵可夫斯基距离切比雪夫距离Chebyshev maximum马氏距离Lance和Williams距离 Lance canberra Williams minkowski离散变量的距离计算dist( )函数原创 2016-06-04 10:02:14 · 1511 阅读 · 0 评论 -
R主成分分析与因子分析
主成分分析通过将维把多个变量化成几个主成分的方法基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标studentX1=c(148, 139, 160, 149, 159, 142, 153, 150, 151, 139,140, 161, 158, 140, 137, 152, 149, 145, 160, 156,151, 147原创 2016-06-11 17:17:55 · 1295 阅读 · 0 评论 -
R可视化绘图一ggplot2之qplot
ggplot2的基本概念• 数据(Data)和映射(Mapping)• 标度(Scale)• 几何对象(Geometric)• 统计变换(Statistics)• 坐标系统(Coordinate)• 图层(Layer)• 分面(Facet)散点图library("ggplot2")qplot(carat, price, data = diamonds原创 2016-06-04 10:04:18 · 2379 阅读 · 0 评论 -
R假设检验与一元线性回归分析
假设检验 相关系数 cor(x,y) cor.test(x,y) 相关系数越接近1,x与y越相关> data("iris")> plot(iris)> i1=iris[which(iris$Species=="setosa"),1:2]> plot(i1)> cor(i1[1],i1[2])> cor.test(i1$Sepal.Length,i1$Sepal.Wi原创 2016-06-03 09:51:04 · 4242 阅读 · 0 评论 -
R基于案例学习时间序列
基于案例学习时间序列时间序列的组成成分系统性部分– 水平– 趋势– 季节性非系统性部分– 噪声/随机扰动时间序列的组成成分加法模型– Y = 水平 + 趋势 + 季节性 + 噪声乘法模型– Y = 水平 × 趋势 × 季节性 × 噪声时间序列的可视化基本方法——时序图 以时间为横坐标,以时间序列相应的取值为纵坐标局部放大时序图改变时原创 2016-06-03 09:49:50 · 1401 阅读 · 0 评论 -
R回归诊断广义线性模型非线性模型
回归诊断样本是否符合正态分布假设?是否存在离群值导致模型产生较大误差?线性模型是否合理?误差是否满足独立性、等方差、正态分布等假设条件?是否存在多重共线性?正态分布检验正态性检验:函数shapiro.test()P>0.05,正态性分布 0.05的p值通常被认为是可接受错误的边界水平(p-value) 方差分析,F检验不显著,Pr>0.05p值为结果可信原创 2016-06-03 09:48:26 · 2696 阅读 · 0 评论 -
R语言中的数据框合并
#两个数据框有相同和不同列----合并IDnamescorestudent1student2total_student1total_student1#横向追加----两个数据框不同列IDnamescoresexstudent1student2total_student2total_student2原创 2016-04-18 20:10:09 · 10754 阅读 · 0 评论 -
R参考卡片
帮助和基础大部分 R 函数都有在线文档。help(topic) 关于 topic 的文档.?topic 同上help.search("topic") 搜索帮助系统apropos("topic") 返回在搜索路径下包含 (部分) 关键词”topic” 的所有对象名称help.start() HTML 形式的帮助 demo() R 功能演示 example(f)原创 2016-05-31 15:53:30 · 7934 阅读 · 2 评论 -
R读取数据_转换时间_可视化实例
1、读取数据lesson8.txt文件放在工作目录下方法1:使用read.table参考这个帖子:http://f.dataguru.cn/thread-208388-1-1.htmlw=read.table("lesson8.txt",sep="\t")y<-matrix(as.matrix(w),nrow(w)/3,3,byrow=TRUE)y<-as.data.frame(y)原创 2016-05-31 15:55:11 · 1800 阅读 · 0 评论 -
R文件导入导出与快捷键
用Rstudio的话,在tools里的Global Options里packages可以设置默认的镜像点读取文件aa导出文本文件write.table函数语法:write.table (x, file ="", sep ="", row.names =TRUE, col.names =TRUE, quote =TRUE)x:需要导出的数据file:导出的文件路径原创 2016-05-04 08:22:46 · 1286 阅读 · 0 评论 -
R可视化绘图二-ggplot2
散点图ggplot(msleep, aes(sleep_rem / sleep_total,awake)) +geom_point() #等于 qplot(sleep_rem / sleep_total, awake, data =msleep)ggplot(msleep, aes(sleep_rem / sleep_total,awake)) +geom_point() +geom_s原创 2016-06-04 10:06:48 · 4305 阅读 · 0 评论 -
R时间序列分析
R时间序列分析 为什么定阶数,如何定,如何判断R时间序列分析工具xts包 xts(x=NUll,order.by=index(x),…) coredata() xts数据子集OHLC数据格式quantmod包TTR包自回归模型(AR) 跟以前时刻有关和当前随机游动有关AR(p)的性质平稳性要求:AR(2)特征根的模都小于1AR(p)的定阶 赤池原创 2016-06-10 21:05:17 · 7251 阅读 · 0 评论 -
R-xgboost模型
R-xgboost模型 是"极端梯度上升"(Extreme Gradient Boosting)的简称xgboost: 速度快效果好的boosting模型install.packages("xgboost")library(xgboost)data(agaricus.train, package='xgboost')data(agaricus.test, package='xgbo原创 2016-05-31 15:51:40 · 5009 阅读 · 0 评论 -
R语言maps绘图
安装maps包install.packages("maps")加载某个安装的R包:library("maps")map("state", interior = FALSE)map("state", boundary = FALSE, col="red", add = TRUE)map('world', fill = TRUE,col=heat.colors(10))实验原创 2016-06-11 17:14:43 · 5134 阅读 · 0 评论 -
R语言JSON转换
library("RJSONIO")解析JSONfromJSON()生成JSon数据框生成name=c(1:5)value=c(6:10)da=data.frame(name,value)dacat(toJSON(da)){ "name": [ 1, 2, 3, 4, 5 ],"value": [ 6, 7, 8, 9, 10 ] }键值对J原创 2016-06-11 17:13:42 · 7010 阅读 · 0 评论 -
R学习常用
rm(list=ls())#清空floor(1.6)[1] 1> ceiling(1.6)[1] 2取整,四舍五入生成时间序列d=seq(as.Date("2000/1/1"),as.Date("2000/1/5"), by="day") #按日生产从XXXX.XX.XX到XXXX.XX.XX时间d[-c(1,2,3)] 去掉向量第几个数据which(d ==原创 2016-06-11 17:12:44 · 650 阅读 · 0 评论 -
R参考卡片二
清除单个变量使用 rm() 函数,清除内存中所有的变量:rm(list=ls())合并字符串datadata分割字符串unlist(strsplit(,split=))函数创建向量和矩阵 =与c(), length(), mode(), rbind()#行, cbind()求平均值,和,连乘,最值,方差,标准差 帮助help(函数名) help(mat原创 2016-06-10 21:10:32 · 1014 阅读 · 0 评论 -
R网格MIC与频繁项集
频繁项集用 R 进行购物篮分析安装arules包并加载内置Groceries数据集library(arules) #加载arules程序包,如果没有install.packages("arules")data(Groceries) #调用数据文件inspect(Groceries) #观看数据集里的数据求频繁项集Eclat算法frequentsets=eclat(G原创 2016-06-10 21:07:30 · 589 阅读 · 0 评论 -
R随机生成数据并打乱排序
R随机生成数据并打乱排序 runif(100,0,2)----生成100个0-2的数--均匀分布sample(seq(0,2,by=0.00001),100,replace=TRUE) ----生成差为0.00001的0-2的数列,从中随机取样100个并且允许重复正态分布rnorm(n,mean=,sd=)二项分布rbinom(m,n,p)打乱顺序-用抽样sam原创 2016-06-10 21:06:50 · 14829 阅读 · 0 评论 -
R时间序列分析包综合
passenger = read.csv('passenger.csv',header=F,sep=' ')plibrary("forecast")#把数据变成time series。 frequency=12表示以月份为单位的time series. start 表示时间开始点,可以用c(a,b,...)表示, 例如按月为单位,标准的做法是 start=c(2011,1) 表示从原创 2016-06-10 21:06:22 · 1870 阅读 · 0 评论