R
文章平均质量分 65
红豆和绿豆
这个作者很懒,什么都没留下…
展开
-
R语言-文本挖掘 主题模型 文本分类
####需要先安装几个R包,如果有这些包,可省略安装包的步骤。#install.packages("Rwordseg")#install.packages("tm");#install.packages("wordcloud");#install.packages("topicmodels")例子中所用数据数据来源于sougou实验室数据。数据网址:http:/转载 2017-04-23 13:41:07 · 2886 阅读 · 1 评论 -
R语言服务器程序 Rserve详解
转载请注明出处:http://blog.fens.me/r-rserve-server/前言Rserve作为一个R语言与其他语言的通信(TCP/IP)接口,被多个项目所依赖。Rserve服务端配置和运行都非常简单,客户端由多种语言实现,像C/C++, Java等。R也有自己的客户端实现 RSclient 项目,将在下文介绍。本文详细剖析Rserve作为服务器端应转载 2017-03-23 13:25:43 · 9339 阅读 · 1 评论 -
Rserve与Java的跨平台通信
转载请注明出处:http://blog.fens.me/r-rserve-java/前言现在主流的异构跨平台通信组件Apache Thrift已经火遍大江南北,支持15种编程语言,但是到目前为止还没有加入R语言。要让R实现跨平台的通信,就只能从R的社区中找方案,像rJava,RCpp,rpy都是2种语言结合的方案,这些方案类似地会把R引擎加载到其他的语言内存环境。优点是转载 2017-03-23 13:15:12 · 305 阅读 · 0 评论 -
R语言中的常用函数
语言的数学运算和一些简单的函数整理如下:向量可以进行那些常规的算术运算,不同长度的向量可以相加,这种情况下最短的向量将被循环使用。 改变编译环境的语言(英语)Sys.setenv(LANGUAGE="en") > x > a > x * a[1] 10 20 30 40 > x + a[1] 11 12转载 2017-03-22 13:24:42 · 4670 阅读 · 0 评论 -
R学习日记——时间序列分析之ARIMA模型预测
今天学习ARIMA预测时间序列。 指数平滑法对于预测来说是非常有帮助的,而且它对时间序列上面连续的值之间相关性没有要求。但是,如果你想使用指数平滑法计算出预测区间, 那么预测误差必须是不相关的, 而且必须是服从零均值、 方差不变的正态分布。即使指数平滑法对时间序列连续数值之间相关性没有要求,在某种情况下, 我们可以通过考虑数据之间的相关性来创建更好的预测模型。自回归移动平均模型(转载 2017-03-22 10:40:06 · 1417 阅读 · 0 评论 -
RUtils -- 建立在Rserve之上的Java与R语言通信工具集
注1:RUtils是我偶然发现的一个工具包,它建立在Rserve之上,可以很大程度上简化我们的程序,关于Rserve网络上有很多相关的内容,这里不对其进行介绍,比如这里:http://blog.fens.me/r-rserve-java/注2:以下内容有很大一部分是“翻译”自官方网站,详情请点开“参考资料”中的链接查看。简介 RUtils是一个用于Ja转载 2017-03-22 10:16:08 · 841 阅读 · 1 评论 -
使用Rserve远程执行R脚本
Rserve介绍 Rserve是一个基于TCP/IP协议的,允许R语言与其他语言通信的C/S结构的程序,支持C/C++,Java,PHP,Python,Ruby,Nodejs等。 Rserve提供远程连接,认证,文件传输等功能。我们可以设计R做为后台服务,处理统计建模,数据分析,绘图等的任务。 详细介绍请参照官方网站:https://rforge转载 2017-03-22 09:39:22 · 4612 阅读 · 0 评论 -
Rsession让Java调用R更简单
写了好几篇关于Rserve的文章了,Rserve作为R语言的通信接口,已经成为了R语言扩展的重要通道。大数据时代的到来,让原本小众的R语言,不经意间挤进了开发语言前20名。同时,具有多种编程语言背景的IT工程师们,开始进入R的社区,帮助R语言快速进化。Rserve提供了一个通信的接口,通过封装可以让R引擎嵌入到其他语言里。目录Rsession介绍Rsession下载转载 2017-03-23 14:07:36 · 2830 阅读 · 2 评论 -
R语言画曲线图
本文以1950年到2010年期间我国的火灾统计数据为例,数据如下所示:(0)加载数据dataE:\\MyDocument\\p\\Data\\1950~2010火灾情况.csv") x=t(data[1]) y=t(data[2]) z=t(data[3])w=t(data[4])maxy=max(y) maxz=max(z) maxw=max(w) (转载 2017-03-11 16:33:12 · 9494 阅读 · 0 评论 -
【R文本挖掘】中文分词Rwordseg
下载安装方法:install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")注意在之前要安装好JAVA,并配置后JAVA环境 1. 分词操作:(1)segmentCN(strwords)> segmentCN("你好北京")[1] "你好" "北京"转载 2016-02-26 08:51:46 · 1732 阅读 · 0 评论 -
Rserve的R语言客户端RSclient
RSclient是实现Rserve通信的R语言客户端程序,对于统计人员使用RSclient调用Rserve运行R语言脚本,感觉会很奇怪。但对于实际应用架构来说却是很有帮助的,不仅可以统一Rserve的接口,还可以从架构上实现R语言的跨虚拟机的分步式程序设计。目录Rserve和RSclient介绍Rserve系统环境RSclient安装RSclient的APIRS转载 2017-03-23 13:48:27 · 811 阅读 · 0 评论 -
centos6.4安装R
主要R的版本是3.2.3 否则会需要安装其他的lib包,在linux下 一、在centos的linux下安装R环境,主要做RServer1、安装前所需的各种包(有的话可省略):yum install gcc gcc-c++ yum install gcc-gfortranyum install readline-develyum install libXt-deve原创 2017-03-27 16:21:41 · 688 阅读 · 0 评论 -
解惑rJava R与Java的高速通道
转载请注明出处:http://blog.fens.me/r-rjava-java前言Java语言在工业界长期处于霸主地位,Java语法、JVM、JDK、Java开源库,在近10年得到了爆发式的发展,几乎覆盖了应用开发的所有领域。伴随着Java的全领域发展,问题也随之而来了。语法越来越复杂,近似的项目越来越多,学好Java变得很难。对于没有IT背景的统计人员,学用Java更是难于转载 2017-03-23 14:28:50 · 355 阅读 · 0 评论 -
R语言进行中文分词和聚类
原文来自:http://www.csdn123.com/html/itweb/20130911/113549_113527_113553.htm目标:对大约6w条微博进行分类环境:R语言 由于时间较紧,且人手不够,不能采用分类方法,主要是没有时间人工分类一部分生成训练集……所以只能用聚类方法,聚类最简单的方法无外乎:K-means与层次聚类。尝试过使用K-means方法,但结果转载 2017-04-23 13:35:36 · 2306 阅读 · 0 评论 -
R语言做文本挖掘 Part5情感分析
Part5情感分析 【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part5情感分析】这是这个系列里面最后一篇文章了,其实这里文本挖掘每一个部分单拎出来都是值得深究和仔细研究的,我还处于初级研究阶段,用R里面现成的算法,来实现自己的需求,当然还参考了众多网友的智慧结晶,所以也想把我的收获总结出来分享给大家,希望也能像我一样在转载 2017-04-23 13:34:25 · 1331 阅读 · 0 评论 -
R语言做文本挖掘 Part4文本分类
Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代;预测集,就是未分类的文本,是分类方法最后的应用实现。1. 数据准备训练集准备是一个很繁琐的功能,暂时没发现什么省力的办法,根据文本内容去手动整理。这里还是使用的某品牌的官微数据,根据微博内容,我将它微博的主要内容分为了:促销资讯(p转载 2017-04-23 13:33:52 · 1357 阅读 · 2 评论 -
利用R语言的tm包进行文本挖掘
摘要: tm包是R语言中为文本挖掘提供综合性处理的package,进行操作前载入tm包,vignette命令可以让你得到相关的文档说明library(tm)vignette("tm")首先要读取文本,本次操作所用的文本是tm包自带的20个XML格式文本,存 ...tmR语言文本挖掘tm包是R语言中为文本挖掘提供综合性处理的package,进行操作前载入tm包,vignett转载 2017-04-23 13:32:54 · 4780 阅读 · 0 评论 -
R语言做文本挖掘 Part3文本聚类
Part3文本聚类【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part3文本聚类】分类和聚类算法,都是数据挖掘中最常接触到的算法,分类聚类算法分别有很多种。可以看下下面两篇文章对常见的分类聚类算法的简介:分类算法:http://blog.csdn.net/chl033/article/details/5204220转载 2017-04-23 13:31:36 · 1154 阅读 · 0 评论 -
R语言做文本挖掘 Part2分词处理
Part2分词处理【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part2分词处理】在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包。参考文档:玩玩文本挖掘,这篇文章讲用R做文本挖掘很详尽,并且有一些相关资料的下载,值得看看!1. RWordseg功能说明转载 2017-04-23 13:22:59 · 533 阅读 · 0 评论 -
R语言做文本挖掘 Part1安装依赖包
http://blog.csdn.net/cl1143015961/article/details/44082731Part1 安装依赖包【发现有人转载,决定把格式什么重新整理一遍,有时间做个进阶版文本挖掘,恩!原文地址:CSDN-R语言做文本挖掘 Part1安装依赖包】R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava需要本机中有安装J转载 2017-04-23 12:09:33 · 743 阅读 · 0 评论 -
时间序列简单介绍
今年在某服装企业蹲点了4个多月,之间很长一段时间在探索其现货和期货预测,时间序列也是做销售预测的首选,今天和小伙伴分享下时间序列的基本性质和如何用R来挖据时间序列的相关属性。首先读入一个时间序列:从1946年1月到1959年12月的纽约每月出生人口数量(由牛顿最初收集)数据集可以从此链接下载(http://robjhyndman.com/tsdldata/data/nybirths.dat)。转载 2017-04-22 15:28:30 · 1130 阅读 · 0 评论 -
R语言学习博客
R做数据挖掘http://blog.csdn.net/jiabiao1602/article/details/43153139http://blog.csdn.net/cl1143015961/article/details/42238029原创 2017-04-22 14:29:26 · 666 阅读 · 0 评论 -
R语言中的高级绘图
1、散点图attach(mtcars) plot(wt, mpg, main="Basic Scatterplot of MPG vs. Weight", xlab="Car Weight (lbs/1000)", ylab="Mil原创 2016-02-25 18:05:51 · 23604 阅读 · 0 评论 -
R语言中的功效分析
一、假设检验速览在统计假设检验中,首先要对总体分布参数设定一个假设(零假设H0),然后从总体分布中抽样,通过样本计算所得的统计量来对总体参数进行推断。假定零假设为真,如果计算获得观测样本的统计量的概率非常小,便可以拒绝原假设,接受它的对立面(称作备择假设或者研究假设H1)。1、样本大小指的是实验设计中每种条件/组中观测的数目。2、显著性水平(也称为alpha)由I型错误的概原创 2016-02-25 10:11:12 · 7126 阅读 · 3 评论 -
R语言中的多元方差分析
1、当因变量(结果变量)不止一个时,可用多元方差分析(MANOVA)对它们同时进行分析。library(MASS)attach(UScereal)y aggregate(y, by = list(shelf), FUN = mean) Group.1 calories fat sugars1 1 119.4774 0.6621338 6.29原创 2016-02-24 12:37:23 · 24462 阅读 · 3 评论 -
R语言对数据的基本管理
以下的操作主要就是针对上面的数据进行处理一、根据已有数据创建新的变量使用以下运算符+,-,*,/,^,%%,%/%一共有三种方式(1)mydata 4, 2, 8))mydata$sumx mydata$meanx (2)attach(mydata)mydata$sumx mydata$meanx detach(mydata)原创 2016-02-18 14:41:44 · 3700 阅读 · 0 评论 -
R语言中如何编写自己的函数初步入门
一、循环与控制循环:for(i in 1:10) print("hello world")iwhile(i>0){print(i);i}控制if()if() elseifelse(判断,true,false)switch(type,。。。)二、用户自定义函数mystats if (parametric) { center原创 2016-02-19 10:50:53 · 29649 阅读 · 0 评论 -
一个R语言使用函数处理的基本的案例
要求:对这个表的处理options(digits=2)Student "Bullwinkle Moose", "David Jones", "Janice Markhammer", "Cheryl Cushing", "Reuven Ytzrhak", "Greg Knox", "Joel England", "Mary Rayb原创 2016-02-19 10:30:21 · 3609 阅读 · 0 评论 -
R语言对数据的高级管理
首先介绍一下数学函数:原创 2016-02-19 10:14:22 · 551 阅读 · 0 评论 -
R语言数据挖掘资料
R语言数据挖掘资料一、分类1)决策树分类http://blog.sina.com.cn/s/blog_6fb7db430100veen.html,包含理论知识与rpart包实例。http://blog.csdn.net/yujunbeta/article/details/14986219,包含算法的自行实现,以及RWeka包的C4.5算法转载 2016-03-04 18:19:00 · 1851 阅读 · 0 评论 -
R语言中基本图形的绘制
1、首先绘制一个简单的线性回归的例子attach(mtcars)plot(wt, mpg)abline(lm(mpg ~ wt))title("Regression of MPG on Weight")detach(mtcars)以下的例子主要针对下表进行绘制dose drugA drugB plot(dose, drugA, t原创 2016-02-18 10:20:56 · 8496 阅读 · 0 评论 -
R语言中的数据集
R语言中的数据存储形式主要有以下几种方式数组,向量,矩阵,数据框,列表R语言中的可以处理的数据类型有以下几种方式数值类型,字符类型,逻辑类型,原声类型(二进制类型),复数类型数值类型 包括 实例标示,日期类型字符类型 包括 标称变量,序数变量R语言针对不同的数据类型处理的方式是不同的一、向量(每一个向量中的元素都是相同的数据类型)a b c原创 2016-02-17 15:06:11 · 18092 阅读 · 1 评论 -
R语言如何从外部读取数据到R中
R语言可以从键盘,文本,excel,access,数据库,专业处理软件sas一、使用键盘的输入mydatamydata二、读入带有分隔符文本格式的数据data其中文件可以有很多选项的file()gzfile(),bzfile(),等一些压缩文件以及url(http://,ftp://,smtp://)例子:默认的时候,字符串会自动使用factor转化为数原创 2016-02-17 16:30:48 · 22072 阅读 · 0 评论 -
管理R语言工作空间的函数的使用
setwd("C:/myprojects/project1")options()options(digits=3)x summary(x)hist(x)savehistory()save.image()原创 2016-02-17 10:20:21 · 1321 阅读 · 0 评论 -
R语言中单变量的各种图形的绘制
一、条形图library(vcd)counts counts None Some Marked 42 14 28barplot(counts, main = "Simple Bar Plot", xlab = "Improvement", ylab = "Frequency")barplot(counts, main =原创 2016-02-19 14:55:31 · 6248 阅读 · 0 评论 -
总结卡方检验(Chi-square test)和费舍尔精确检验(Fisher exact test)的区别
之前我一直都没有弄清楚卡方检验和Fisher exact test的区别。今天花时间专门整理、学习一下。卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。 问题:(1)对于2*2的列联表,该用哪种检验方法?(2)对于R*转载 2016-02-20 13:30:05 · 94078 阅读 · 1 评论 -
R语言中的基本统计分析
(1)描述性分析(2)频数表和列联表(3)相关系数和协方差(4)t检验(5)非参数统计具体的实现以上各个数据项(1)描述性分析若干用户贡献包都提供了计算描述性统计量的函数,其中包括Hmisc、pastecs psych。summary()apply(x,1/2,FUN)sapply(x,FUN,Options) FUN=sum/mean,sd,var,m原创 2016-02-20 09:48:58 · 18224 阅读 · 0 评论 -
R语言中的含一个组间因子和一个组内因子的重复测量方差分析
我们关注寒带植物。因变量是二氧化碳吸收量(uptake),单位为ml/L,自变量是植物类型Type(魁北克VS密西西比州)和七种水平(95~1000 umol/m^2 sec)的二氧化碳浓度(conc)。另外,Type是组间因子,conc是组内因子w1b1 fit summary(fit)Error: Plant Df Sum Sq Mean Sq F原创 2016-02-24 10:59:35 · 8935 阅读 · 2 评论 -
R语言中的双因素方差分析
在双因素方差分析中,受试者被分配到两因子的交叉类别组中。以基础安装中的Tooth-Growth数据集为例,随机分配60只豚鼠,分别采用两种喂食方法(橙汁或维生素C),各喂食方法中抗坏血酸含量有三种水平(0.5 mg、1 mg或2 mg),每种处理方式组合都被分配10只豚鼠。牙齿长度为因变量attach(ToothGrowth)table(supp, dose) doses原创 2016-02-24 10:34:20 · 22981 阅读 · 2 评论 -
R语言中的单因素协方差分析
单因素协方差分析(ANCOVA)扩展了单因素方差分析(ANOVA),包含一个或多个定量的协变量。下面的例子来自于multcomp包中的litter数据集(见Westfall et al.,1999)。怀孕小鼠被分为四个小组,每个小组接受不同剂量(0、5、50或500)的药物处理。产下幼崽的体重均值为因变量,怀孕时间为协变量attach(litter)table(dose)d原创 2016-02-24 10:12:08 · 15940 阅读 · 1 评论