R
LuLuZhang15
这个作者很懒,什么都没留下…
展开
-
R中的sample函数
今天介绍一些运算函数,它们的使用很简单,没有什么难度,但是也会用的着。在医学统计学或者流行病学里的现场调查、样本选择经常会提到一个词:随机抽样。随机抽样是为了保证各比较组之间均衡性的一个很重要的方法。那么今天介绍的第一个函数就是用于抽样的函数sample:> x=1:10> sample(x=x) [1] 3 5 9 6 10 7 2 1 8 4转载 2017-04-09 20:14:18 · 79528 阅读 · 4 评论 -
ggplot作图2
ggplot做图 eg:ggplot(data = mpg,mapping = aes(x=cty,y = hwy)) + geom_point() + aes(colour = factor(mpg$year)) 1.其中data = mpg,mapping = aes(x=cty,y=hwy)表示数据层 geom_point原创 2017-05-15 12:21:27 · 566 阅读 · 0 评论 -
R语言数据处理(1)
高效处理数据R包 dplyr提取数据到底有哪些方法使用 $ 提取数据模糊匹配数据框提取数据时,有时候得到的是数据框,有时候是向量,这种数据自动降维是怎么回事管道操作函数在使用R做数据分析的一个完整的过程包括数据的获取,数据的前期处理,之后才是使用“整齐”的数据来套用模型得出结论。本专题旨在系统地讲述使用R语言完成前期的数据处理,英转载 2017-05-16 09:59:32 · 1893 阅读 · 0 评论 -
R语言数据处理(2)
本文目录如下数据框合并拼接合并merge合并计算并增加行列汇总计算分组计算融合重铸融合重铸的应用拆分合并列载入包library(dplyr) # 高速处理数据,取代R自带的一些函数,代码简单易记library(tidyr) # 提供一些其他功能library(re转载 2017-05-16 10:10:02 · 2776 阅读 · 0 评论 -
R语言回归分析
1.回归的多面性回归类型用途简单线性个量化的解释变量来预测一个量化的响应变量(一个因变量、一个自变量)多项式一个量化的解释变量预测一个量化的响应变量,模型的关系是n阶多项式(一个预测变量,但同时包含变量的幂)多元线性用两个或多个量化的解释变量预测一个量化的响应变量(不止一个预测变量)多变量 用一个或转载 2017-04-25 19:50:08 · 21096 阅读 · 1 评论 -
R语言主成分和因子分析
主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分。探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法,通过寻找一组更小 的、潜在的或隐藏的结构来解释已观测到的、变量间的关系。1.R中的主成分和因子分析R的基础安装包中提供了PCA和EFA的函数,分别为princomp ()和factanal()转载 2017-04-25 19:51:31 · 2378 阅读 · 0 评论 -
用R Markdown 生成数据分析报告
为了创建 R Markdown报告,打开text文件,并将它保存为.Rmd 文件。File > New File > Text File确保保存成 .Rmd文件, RStudio IDE能够很大程度上帮助你完成整个任务.,你可以保存通过File > Save。修改扩展名。R Markdown 报告由一下3部分组成:text文本knitr 处理 R c转载 2017-07-31 15:53:05 · 12467 阅读 · 0 评论 -
spaarkr 的使用
日前,Rstudio公司发布了sparklyr包。该包具有以下几个功能:实现R与Spark的连接—sparklyr包提供了一个完整的dplyr后端筛选并聚合Spark数据集,接着在R中实现分析与可视化利用Spark的MLlib机器学习库在R中实现分布式机器学习算法可以创建一个扩展,用于调用Spark API。并为Spark的所有包集提供了一个接口未来在RStudio IDE中集成支持Spa转载 2017-08-23 15:46:38 · 373 阅读 · 0 评论 -
混合型数据聚类(R)
利用聚类分析,我们可以很容易地看清数据集中样本的分布情况。以往介绍聚类分析的文章中通常只介绍如何处理连续型变量,这些文字并没有过多地介绍如何处理混合型数据(如同时包含连续型变量、名义型变量和顺序型变量的数据)。本文将利用 Gower 距离、PAM(partitioning around medoids)算法和轮廓系数来介绍如何对混合型数据做聚类分析。----------------------转载 2017-08-23 15:54:04 · 2188 阅读 · 0 评论 -
R连接Mysql(windows)
1、下载(mysql-connector-odbc-5.3.4-winx64.msi) 1.1下载地址:http://dev.mysql.com/downloads/connector/odbc 1.2、安装mysql-connector-odbc-5.3.4-winx64.msi(安装按照默认就好了)1.3、配置datasourcewindows:控制面板⇒⇒管理工具⇒⇒ODBC 数据源(64 ...原创 2018-04-03 15:29:13 · 538 阅读 · 0 评论 -
R语言绘图函数
1. par()函数的参数详解函数par()可以用来设置或者获取图形参数,par()本身(括号中不写任何参数)返回当前的图形参数设置(一个list);若要设置图形参数,则可用par(tag = value)的形式,其中tag的详细说明参见下面的列,value就是参数值,例如:par(mar = c(4, 4, 1, 0.5), bg = "yellow") # 设置边距参数和背景色par(pi...转载 2018-04-04 16:42:05 · 12797 阅读 · 0 评论 -
apply的家族函数(转载)
目录apply的家族函数apply函数lapply函数sapply函数vapply函数mapply函数tapply函数rapply函数eapply函数1. apply的家族函数apply函数族是R语言中数据处理的一组核心函数,通过使用apply函数,我们可以实现对数据的循环、分组、过滤、类型控制等操作。但是,由于在R语言中apply函数与其他语言循环体的处理思路是完全不一样的,所以apply函数族...转载 2018-06-22 16:01:15 · 1611 阅读 · 1 评论 -
机器学习实例-线性回归模型
#第五章:线性回归模型 数据下载地址:https://github.com/johnmyleswhite/ML_for_Hackerslibrary(ggplot2)ages ggplot(ages,aes(x = AgeAtDeath,fill = factor(Smokes))) + geom_density()+facet_grid(Smokes~.)原创 2017-04-22 21:23:02 · 932 阅读 · 0 评论 -
R语言推荐算法
library(recommenderlab)library(ggplot2)# data(MovieLense)dim(MovieLense)## [1] 943 1664MovieLense## 943 x 1664 rating matrix of class 'realRatingMatrix' with 99392 ratings.image(sample(MovieL转载 2017-04-17 10:55:01 · 2470 阅读 · 0 评论 -
机器学习实用案列3
第3章 分类:垃圾过滤#machine learing for heckers #chapter 312library(tm)library(ggplot2) #设置路径变量123456转载 2017-04-13 11:17:42 · 444 阅读 · 0 评论 -
R全面解析Mahout的基于用户推荐协同过滤算
前言用R全面解析Mahout的基于用户推荐协同过滤算法(UserCF),改进的采用欧氏距离,并用R语言实现,与Mahout的结果进行对比。Mahout是Hahoop家族用于机器学习的一个框架,包括三个主要部分,推荐,聚类,分类!我在这里做的是推荐部分。推荐系统在现在的互联网应用中很常见,比如,亚马逊会推荐你买书,豆瓣会给你一个书评,影评。由于时间仓促,欢迎大家一起讨论。转载 2017-04-14 16:17:10 · 408 阅读 · 0 评论 -
完整的R语言预测建模实例-从数据清理到建模预测
本文使用Kaggle上的一个公开数据集,从数据导入,清理整理一直介绍到最后数据多个算法建模,交叉验证以及多个预测模型的比较全过程,注重在实际数据建模过程中的实际问题和挑战,主要包括以下五个方面的挑战:缺失值的挑战异常值的挑战不均衡分布的挑战(多重)共线性的挑战预测因子的量纲差异 以上的几个主要挑战,对于熟悉机器学习的人来转载 2017-04-14 16:22:12 · 6183 阅读 · 4 评论 -
ARIMA时间序列分析
1. 处理数据1.1. 导入forecast包forecast包是一个封装的ARIMA统计软件包,在默认情况下,R没有预装forecast包,因此需要先安装该包> install.packages("forecast')导入依赖包zoo,再导入forecast包> library("zoo")> library("forecast")1.2. 导入数据转载 2017-04-14 16:24:43 · 2003 阅读 · 0 评论 -
数据分析 R语言实战 学习笔记 第三章 数据预处理
数据分析 R语言实战 学习笔记 第三章 数据预处理 (下)3.3 缺失值处理R 中缺失值以NA 表示,判断数据是否存在缺失值的函数有两个,最基本的函数是is.na() 它可以应用于向量、数据框等多种对象,返回逻辑值。> attach(data)The following objects are masked fromdata (pos = 3):c转载 2017-04-14 16:27:06 · 3022 阅读 · 0 评论 -
R语言系列:datasets(R自带数据包)
向量euro #欧元汇率,长度为11,每个元素都有命名landmasses #48个陆地的面积,每个都有命名precip #长度为70的命名向量rivers #北美141条河流长度state.abb #美国50个州的双字母缩写state.area #美国50个州的面积state.name #美国50个州的全称因子stat转载 2017-04-14 20:43:56 · 6415 阅读 · 0 评论 -
机器学习实例第二章:数据分析
#机器学习实例第二章:数据分析height.weight sep = ",",header = TRUE )summary(height.weight)#仅查看heights.weights中的height的各个值heights summary(heights)#计算均值的函数:把向量原创 2017-04-19 15:29:25 · 448 阅读 · 0 评论 -
R语言中进行文件夹操作范例注释(转)
R语言中进行文件夹操作范例注释(转)rm(list=ls())path = 'J:/lab/EX29 --在R语言中进行文件(夹)操作'setwd(path)cat("file A\n", file="A") #创建一个文件A,文件内容是'file A','\n'表示换行,这是一个很好的习惯cat("file B\n", file="B") #创建一个转载 2017-04-19 15:47:25 · 1814 阅读 · 0 评论 -
ggpolt做图1
#使用ggplot里面的qplot作图library(ggplot2)qplot(Wind,Temp,data = airquality,color = Month)#每个月分的颜色不一样,对应每个月是一个颜色渐变条qplot(Wind,Temp,data = airquality,shape = Month) # 把形状赋值给Month,因此每个月点的形状不一样原创 2017-04-15 20:20:18 · 782 阅读 · 0 评论 -
机器学习实例第一章
#机器学习实例1#read.delim在读函数时,会默认把字符串装换为factor的类型,这个类型是用来表示分类变量的,因此需要设置#stringAsFactor=FALSE来防止其转换,此外,这份数据第一行并没有表头,因此还需要把表头的参数设置为false#以防止R把第一行当成表头,最后,数据中有许多空元素,要把这些空元素设置为R中的=特殊值NA,定义显式的空字符串为#n原创 2017-04-15 20:23:56 · 346 阅读 · 0 评论 -
R利用卷积神经网络做预测
深度学习在过去几年,由于卷积神经网络的特征提取能力让这个算法又火了一下,其实在很多年以前早就有所出现,但是由于深度学习的计算复杂度问题,一直没有被广泛应用。一般的,卷积层的计算形式为:其中、x分别表示当前卷积层中第j个特征、前一层的第i个特征;k表示当前层的第j个特征与前一层的第i个特征之间的卷积核;M表示需要卷积的前一层的特征的集合,b表示当前卷积层中第j个卷积核对应转载 2017-04-15 21:34:57 · 12763 阅读 · 0 评论 -
R----stringr包介绍学习
R----stringr包介绍学习 1. stringr介绍stringr包被定义为一致的、简单易用的字符串工具集。所有的函数和参数定义都具有一致性,比如,用相同的方法进行NA处理和0长度的向量处理。字符串处理虽然不是R语言中最主要的功能,却也是必不可少的,数据清洗、可视化等的操作都会用到。对于R语言本身的base包提供的字符串基础函数,随着时间的积累,已经变得很多地方不一致,不规范的命名,不标准...转载 2018-06-27 15:51:31 · 663 阅读 · 0 评论