R语言
文章平均质量分 95
给我瓶叶小白
虽千万人吾往矣。
展开
-
R关于java版本问题解决方法
在学习R过程中,需要用到各种各样的语言包,由于R的拥有各个软件的接口,但是在Java接口的问题上,安装R包时候总是会出现jdk版本问题。比如安装rJavas时候以及安装h2o包时候,需要用到Java,但是R的客户端,无论是32位的还是64位的,都默认是引用32位jdk,因此就导致软件包安装不上或者包函数无法使用。比如:You have a 32-bit version of Jav原创 2017-04-27 18:55:22 · 1439 阅读 · 0 评论 -
R的正态分布函数
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)一维正态分布若随机变量服从一个位置参数为、尺度参数为的概率分布,且其概率密度函数为则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布,记作,读作服从,或服从正态分布原创 2016-10-18 21:47:33 · 49068 阅读 · 1 评论 -
R在linux上安装RCurl以及解决办法
一般安装办法,install.packages("RCurl")有时候会出现错误,显示install.packages("RCurl")返回值为0,这是由于缺少依赖包,所以先推出R来安装下该包依赖的包文件 sudo apt-get install libcurl4-gnutls-dev然后再进入R换进,用install.packages进行安装。原创 2016-10-09 11:40:38 · 4430 阅读 · 0 评论 -
自己写的字符处理函数+字符处理函数
(1)分割函数:##############分割函数Split{ MydataFrame x MydataFrame write.table(MydataFrame,file="Split1.csv",sep=",",na="NA",row.names = FALSE,col.names = FALSE) MydataFrame write.table(原创 2016-06-03 16:08:14 · 481 阅读 · 0 评论 -
基于R语言构建的电影评分预测模型
电影评分系统是一种常见的推荐系统。现在使用R语言基于协同过滤算法来构建一个电影评分预测模型。一,前提准备http://m.blog.csdn.net/article/details?id=52122842转载地址 1.R语言包:ggplot2包(绘图),recommenderlab包,reshape包(数据处理) 2.获取数据:大家可以在明尼苏达州大转载 2016-08-10 22:47:07 · 3021 阅读 · 0 评论 -
R语言为Hadoop注入统计血脉
前言http://bbs.nfa5.com/r/37441.html写过几篇关于RHadoop的技术性文章,都是从统计的角度,介绍如何让R语言利用Hadoop处理大数据。今天决定反过来,从计算机开发人员的角度,介绍如何让Hadoop结合R语言,能做统计分析的事情。目录R语言介绍Hadoop介绍为什么要让Hadoop结合R语言?如何让Hadoop结合R转载 2016-08-09 22:00:16 · 283 阅读 · 0 评论 -
R语言安装NLP自然语言分析包
引言: R语言是一种非常强大的分析与展示的统计科学家工具,其也提供了若干关于自然语言的分析处理工具,本文讲展示如何在Linux进行安置。1. 自然语言处理(NLP) 对于英语体系,基于空格可以直接进行分词,而中文则不同,需要进行分词,然后进行后续处理。NLP是natural language processing的缩写,专指此类的工作。 自然语言处理包: Snowba转载 2016-08-08 19:09:58 · 929 阅读 · 0 评论 -
在windows下批处理R脚本
1、将R.exe所在路径加到环境变量path下,路径一般为C:\Program Files\R\R-3.0.1\bin2、在windows 命令行中敲入 调用命令:r CMD BATCH D:\RWORKSPACE\CMD_TEST.RE:\Rword (注意 CMD BATCH 都要大写)命令的普遍形式为R CMD command file,command是别的工具,比如前面用到的批处理原创 2016-08-08 18:59:05 · 2499 阅读 · 0 评论 -
在R上如何安装RWeka
第一步:在你的计算机上安装jdk,并配置好环境变量。Weka是java实现的,本质上是调用一个java类。所以需要依赖rJava包 第二步:安装rJava包。> install.packages('rJava')--- 在此連線階段时请选用CRAN的鏡子 ---试开URL’http://mirrors.xmu.edu.cn/CRAN/bin/windows/contrib/原创 2016-08-08 18:32:11 · 5538 阅读 · 0 评论 -
二项分布
二项分布二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。统计学定义在概率论和统计学中,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试原创 2016-10-19 21:37:57 · 1991 阅读 · 0 评论 -
泊松分布
泊松分布(Poisson distribution),台译卜瓦松分布,是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)分布特点编辑泊松分布的概率函数为:泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。 泊松分布适合于描述单位时间内随机事件发生的次数。泊松分布的期望和方差均为特征原创 2016-10-20 15:48:55 · 6219 阅读 · 1 评论 -
ggplot的使用
作者:Guangchuang Yu原文链接:http://ygc.name/2014/05/11/use-ggplot2/1、Why use ggplot2ggplot2是我见过最human friendly的画图软件,这得益于Leland Wilkinson在他的著作《The Grammar of Graphics》中提出了一套图形语法,把图形元素抽象成可以自由组合的成分,H转载 2016-10-08 12:45:56 · 4372 阅读 · 0 评论 -
plot函数参数
函数名称:plot用 途:作图用 法:plot(x, y, ……)参 数:1、符号和线条 pch:指定绘制点所使用的符号,取值范围[0, 24],其中4是“差号”,20是“点” cex:指定符号的大小。cex是一个数值,表示pch的倍数,默认是1.5倍 lty:指定线条类型。lty=1代表实线,2至6都是虚线,虚的程转载 2016-12-22 09:31:17 · 8485 阅读 · 0 评论 -
可视化篇:R语言REmap+Echart做迁徙,通勤图
工作后经常要做一些比较贴合用户级别的可视化,R的ggplot2在做一些学术或者理论研究上的可视化时,效果是非常好,基本上能想到的图ggplot都能画出(不要纠结双坐标和3D) 在作静态图时,ggplot2+AI可以展现出印刷级别的效果,具体可以查看:http://theinformationcapital.com/ 这里要感谢数据人网一位朋友,是他介绍的这本书。 在作动态图或者转载 2016-11-23 16:50:32 · 4458 阅读 · 2 评论 -
networkD3包
力导向网络图这种图采用物理上的弹簧模型,将节点之间想象成是用弹簧连接的,然后把这些用弹簧连接的节点扔到桌面上,让这些弹簧自己弹啊弹,弹啊弹,最后总能停下来,达到一个平衡状态。这个状态下的节点连接图,能力最小,线和线之间的交叉最小。这种方法的学名叫spring-embedder 或者 force-directed。拖动中间的图里的任意节点,整个网络就会被拖动,并达到新的平衡位置。原创 2016-11-23 12:42:06 · 5654 阅读 · 0 评论 -
R原因列联表table()函数
一、table 函数对应的就是统计学中的列联表,是一种记录频数的方法,对于统计来说有非常重要的应用,下面的例子都是针对维数为2的情况举例,多维的情况是类似的ct <- data.frame(Vote.for.X = factor(c("Yes", "Yes", "No", "Not Sure", "No"), levels = c("Yes", "No", "Not Sure"原创 2016-12-02 15:35:42 · 9161 阅读 · 0 评论 -
概括性统计
mean {base} Arithmetic Mean算术平均Description(描述) Generic function for the (trimmed) arithmetic mean. 算术(截断)平均函数Usage(用法) mean(x, ...)## Default S3 method: 默认S3方法:原创 2016-10-20 18:37:02 · 667 阅读 · 0 评论 -
R weighted-mean加权函数
R-weighted.mean()转载2015-10-07 16:01:17 加权平均在一组数据里,一个数据出现的次数称为权。A权重已知例① ②③④⑤⑥学校算期末成绩,期中考试占30%,期末考试占50%,作业占20%,假如某人期中考试得了84,期末92,作业分91,如果是算数平均,那么就是(84+92+91)/3=89;加权后的,那么加权处理后就转载 2016-10-20 18:05:50 · 10387 阅读 · 0 评论 -
qplot的简单使用
我从这周开始参加系里的一个关于ggplot2的study group所以我希望能把每次的主要内容以笔记的形式整理下来内容是基于这本书ggplot2: Elegant Graphics for Data Analysis另外据说这本也是个不错的参考R Graphics Cookbook下面是ggplot2的一些文档和github上的源代码http://docs.ggplo转载 2016-10-08 12:52:01 · 2616 阅读 · 0 评论 -
Error : loadNamespace()里算'rJava'时.onLoad失败了
64位windows在安装rJava和Rwordseg时报错以及解决办法,详细过程如下。> install.packages('rJava')--- 在此連線階段时请选用CRAN的鏡子 ---试开URL’http://mirrors.xmu.edu.cn/CRAN/bin/windows/contrib/3.1/rJava_0.9-7.zip'Content type 'applicat转载 2016-08-08 18:04:51 · 4480 阅读 · 0 评论 -
EBImage中文文档
ebimage提供通用的图像处理和分析功能。这允许使用R编程语言的这样的任务的自动化,并有利于在R环境中的信号处理,统计建模,机器学习和可视化与图像数据的其他工具的使用。1 安装EBImage.ebimage是R包分布作为BioConductor计划的一部分安装步骤如下:source("http://bioconductor.org/biocLite.R")biocLite原创 2016-08-08 15:16:41 · 4207 阅读 · 0 评论 -
开源机器学习新工具RWeka(R Meets Weka )
自 http://huangbo929.blog.edu.cn/2008/64694.html今天在找关联规则相关的资料时候,无意发现R语言中文论坛,虽然里面的资料有限,但是很有价值,譬如RWeka,一种开源的机器学习工具,在此予以介绍:背景介绍: #此前在首页部分显示#1)Weka: Weka有两种意思:一种不会飞的鸟的名字,一个机器学习开源项目的简称(Waikato Env转载 2016-08-08 09:35:41 · 1110 阅读 · 0 评论 -
R语言正则表达式
在用R处理网页抓取的数据的时候,总是会涉及到正则表达式,看到一篇不错的介绍转载如下正则表达式是一种查找以及字符串替换操作。正则表达式在文本编辑器中广泛使用,比如正则表达式被用于:•检查文本中是否含有指定的特征词•找出文中匹配特征词的位置•从文本中提取信息,比如:字符串的子串•修改文本与文本编辑器相似,几乎所有的高级编程语言都支持正则表达式。在这样的语境下,“文本转载 2016-06-03 15:49:36 · 6105 阅读 · 0 评论 -
数据采集测试资料网站
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.ty转载 2016-05-27 18:59:02 · 1711 阅读 · 0 评论 -
R基础(个人笔记)
R语言基础:1.变量赋值: 第一种,a 第二种,assign("a","123")##将a赋值为字符串1232.删除变量 rm(x1,x2,...)##x?为变量名字,可以同时删除多个对象。3.显示变量 ls()4.释放存储空间 gc()##R可以自动释放存储空间,所以该函数是不必要的。5.数据类型 class(x)##显示x的数据类型。6.原创 2016-05-27 18:35:30 · 424 阅读 · 0 评论 -
包的安装
R包的安装1.下载: install.packages("name")2.加载: library(name)或则require() 使用require()加载包会返回值,true或者false,表示加载成功或者失败,一般用在函数体内部。 在加载过程中一般会显示出相关的同样加载的包。使用quiely=TRUE参数来隐藏。3.卸载: detach("packag原创 2016-05-27 16:42:18 · 298 阅读 · 0 评论 -
R语言连接数据库
R语言连接数据库常用的方法有2种:1、使用R数据库接口连接MySQL,使用RMySQL包,使用前RMySQL包要先安装。library(RMySQL)连接方式有2种:(1)使用dbConnectconn 数据操作方法:dbWriteTable(conn, "tablename", data) #写表dbReadTable(conn, "tablename转载 2016-05-26 20:31:47 · 714 阅读 · 0 评论 -
文件读取写入
1文件写入函数。write.table(x, file = "", append = FALSE, quote = TRUE, sep = " ", eol = "\n", na = "NA", dec = ".", row.names = TRUE, col.names = TRUE, qmethod = c("escape",原创 2016-05-26 20:30:13 · 426 阅读 · 0 评论 -
R语言:常用函数(9.29 更新版)
R语言:常用函数(9.29 更新版)一、数据管理vector:向量 numeric:数值型向量 logical:逻辑型向量 character;字符型向量list:列表 data.frame:数据框 c:连接为向量或列表length:求长度subset:求子集 seq,from:to,sequence:等差序列 rep:重复 NA转载 2016-05-26 20:28:29 · 1239 阅读 · 0 评论 -
R语言系列:datasets(R自带数据包)
R语言系列:datasets(R自带数据包)向量euro #欧元汇率,长度为11,每个元素都有命名landmasses #48个陆地的面积,每个都有命名precip #长度为70的命名向量rivers #北美141条河流长度state.abb #美国50个州的双字母缩写state.area #美国50个州的面积state.转载 2016-05-26 20:27:33 · 29254 阅读 · 1 评论 -
R函数编写基础
编写函数:第一部分:1 print("str")##打印函数,打印出字符内容2 sprintf("hello,%s","yjz")##%s是占位符,。3 函数参数以及函数调用:hello.persion{ print(sprintf("hello %s %s",first,last))}4 缺省参数hello.persion{ print原创 2016-07-09 20:07:29 · 3437 阅读 · 0 评论 -
apply()函数族
apply()函数族: apply():该函数只能运用于矩阵。(若是数据框,它会自动将其转化成矩阵。) 该函数三个参数,第一个是矩阵,第二个是数字1或者2,1代表处理行,2代表列,第三个函数代表调用的处理函数。> t> t [,1] [,2] [,3][1,] 1 4 7[2,] 2 5 8[3,] 3原创 2016-05-28 12:55:12 · 478 阅读 · 0 评论 -
R语言的plyr包简介
(转载地址)http://www.jianshu.com/p/bfddfe29aa39R语言的plyr包简介字数3040 阅读2875 评论3 喜欢7R语言中的类SQL操作plyr包可以进行类似于数据透视表的操作,将数据分割成更小的数据,对分割后的数据进行些操作,最后把操作的结果汇总。本文主要介绍以下内容:Split-Aapply-Combine 原理介转载 2016-07-09 21:41:40 · 8361 阅读 · 0 评论 -
R语言使用RMySQL连接及读写Mysql数据库
R语言使用RMySQL连接及读写Mysql数据库简单说下安装过程,一般不会有问题,重点是RMySQL的使用方式。系统环境说明Redhat系统:Linux 460-42.6.32-431.29.2.el6.x86_64系统编码:LANG=zh_CN.UTF-8(中文UTF-8格式)mysql版本:mysql Ver 14.14 Distrib 5.1.73, forredh转载 2016-08-06 10:43:49 · 873 阅读 · 0 评论 -
RMySQL数据库编程指南
摘要: MySQL是一款最常用到开源数据库软件,安装简单,运行稳定,非常适用于中小型的数据存储。R作为数据分析的工具,当然要支持数据库驱动接口。让R和MySQL配合在一起,所能爆发出的能量是巨大的。R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一转载 2016-08-06 10:46:07 · 1032 阅读 · 0 评论 -
如何在R上配置RODBC
在Windows10上配置RODBC一、前提准备windows10系统,R平台较高版本(3.0以上)二、在R中,输入install.packages(“RODBC”),安装RODBC包,三、在http://dev.mysql.com/downloads/connector/odbc下载mySQL ODBC,安装好。四、打开mysql绿色版,双击mysql_start_utf8.ba原创 2016-08-05 09:24:54 · 4725 阅读 · 0 评论 -
hadoop大数据学习路线
Hadoop大数据学习线路图入门知识对于我们新手入门学习hadoop的朋友来说,首先了解一下云计算和云计算技术是有必要的。下面先是介绍云计算和云计算技术的:云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络转载 2016-06-17 19:23:22 · 855 阅读 · 0 评论 -
R正态分布+ggplot
randNorm##rnorm(3000)产生3000个正太分布数randDensity###dnorm(randNorm)求其密度函数值ggplot(data.frame(x=randNorm,y=randDensity))+aes(x=x,y=y)+geom_point()+labs(x="Random Normal Varables",y="randDensity")##原创 2016-07-11 11:31:43 · 6617 阅读 · 0 评论 -
stringr包字符处理函数简介
R语言字符串处理包stringr原文 http://blog.fens.me/r-stringr/ http://www.tuicool.com/articles/2yQVBfAR的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。 R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的转载 2016-07-10 09:25:32 · 1779 阅读 · 0 评论 -
melt函数简介
melt 是溶解/分解的意思, 即拆分数据。 reshape/reshape2 的 melt 函数是个 S3 通用函数,它会根据数据类型(数据框,数组或列表)选择 melt.data.frame, melt.array 或 melt.list 函数进行实际操作。1. 如果是数组(array)类型,melt 的用法就很简单,它依次对各维度的名称进行组合将 数据进行线性/向量化。如转载 2016-07-10 09:05:04 · 9565 阅读 · 0 评论