R语言与数据挖掘
文章平均质量分 83
XIUXIU179
向往美好!希望大家都找到自己理想的乌托邦~
展开
-
数据更多探索
3D散布图> library(scatterplot3d)Warning message:程辑包‘scatterplot3d’是用R版本3.3.3 来建造的 > scatterplot3d(iris$Sepal.Width,iris$Sepal.Length,iris$Petal.Width)交互式> plot3d(iris$Petal.Width,iris$Sepal....原创 2018-04-16 10:35:26 · 655 阅读 · 0 评论 -
时间序列分析与挖掘
时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。 时间序列构成要素:长期趋势,季节变动,循环变动,不规则变动长期趋势( T )现象在较长时期内受某种根本性因素作用而形成的总的变动趋势季节变动( S )现象在一年内随着季节的变化而发生的有规律的周期性变动循环变动( C )现象以若干年为周...原创 2018-05-02 21:11:24 · 2193 阅读 · 0 评论 -
单样本和双样本的检验
1.1 单样本t检验t检验假设数据来自于一个正态分布。> daily.intake <- c(5260, 5470, 5640, 6180, 6390, 6515, 6805, 7515, 7515, 8230, 8770)> mean(daily.intake)[1] 6753.636> sd(daily.intake)[1] 1142.123> quan...原创 2018-04-12 12:53:01 · 8318 阅读 · 0 评论 -
R语言基础
# 大型计算机# 赋值# 向量运算# R语言----表达式和对象/调用函数的格式是函数名后面由圆括号包含起来的一个或者几个参数。# 引用和转义序列cat (c("A", "B","C","\n" "c")) # \n 转义序列(换行)cat("What is \"R\" ? ") #\ 转移字符# 生成向量的函数:c(concatenate)把各分项首尾连接、seq原创 2018-04-12 10:06:09 · 652 阅读 · 0 评论 -
R客户端RStudio快捷键大全
r语言客户端RStudio快捷键大全中文版ConsoleDescription Windows & Linux Mac将光标定位到控制台 Ctrl+2 Ctrl+2清空控制台 Ctrl+L Command+L将光标定位到行首 Home Command+Left将光标定位到行末 End Command+Right在历史命令中导...原创 2018-04-12 10:27:44 · 6207 阅读 · 0 评论 -
R语言概率与分布
1.1 随机抽样在R中,函数sample模拟随机抽样,(sample的默认行为是无放回抽样,加上replace=T放回抽样,prob函数调节概率)> sample(1:40,5)[1] 6 33 8 22 11> sample(40,5)[1] 18 34 11 1 25> sample(40,5,replace = TRUE)[1] 15 5 11 22 1...原创 2018-04-12 12:27:07 · 4092 阅读 · 0 评论 -
R 语言图形函数 par()参数应用举例
函数 par()中的参数可以分为三大类:(1) 只可以查询而不可以修改的参数, 即 readonly 参数: "cin", "cra", "csi", "cxy", "din"和 "page"。(2)只能通过 par 函数进行设置的参数: "ask", "fig", "fin", "lheight", &原创 2018-04-27 14:29:51 · 7745 阅读 · 0 评论 -
R中ifelse、which、%in%的用法
在R学习过程中,遇到了ifelse、which、%in%,下面分别举例,说明他们的用法。1、ifelseifelse(test, yes, no)test为真,输出yes值,否则输出no值。举例如下:> x <- c(1,1,1,0,0,1,1)> ifelse(x != 1, 1, 0) #若果x的值不等于1,输出1,否则输出0[1] 0 0 0 1 1 0 02、which用...原创 2018-04-26 17:46:02 · 471 阅读 · 0 评论 -
回归与相关性
1.简单线性回归通过线性回归来描述连个变量之间的联系。函数lm(linear model,线性模型)可以用来进行线性回归分析。> attach(thuesen)> lm(short.velocity~blood.glucose)Call:lm(formula = short.velocity ~ blood.glucose)Coefficients: (Intercep...原创 2018-04-13 14:04:43 · 2022 阅读 · 0 评论 -
R语言函数总结
R语言与数据挖掘:公式;数据;方法R语言特征对大小写敏感通常,数字,字母,. 和 _都是允许的(在一些国家还包括重音字母)。不过,一个命名必须以 . 或者字母开头,并且如果以 . 开头,第二个字符不允许是数字。基本命令要么是表达式(expressions)要么就是 赋值(assignments)。命令可以被 (;)隔开,或者另起一行。基本命令可以通过大括弧({和}) 放在一起构成一个复合表达式(c...转载 2018-06-20 10:15:44 · 22718 阅读 · 2 评论 -
大数据简介
Evolution in Big Data technologies, help businesses to:Enhance and streamline existing databasesAdd insight to existing opportunitiesExplore and exploit new opportunitiesProvide faster access to informationAllow storage of large volumes of inform原创 2018-07-06 14:39:38 · 1403 阅读 · 0 评论 -
union(并),setdiff(差),intersect(交)R语言含义
union(并)求两个向量的并集 集合可以是任何数值类型union(x=1:3, y=2:5) [1] 1 2 3 4 5union(x=c("abc", "12"), y=c("bcd", "efg")) [1] "abc" "12""bcd" "efg"setdiff(差)求向量x与向量y中不同的元素(只取x中不同的元素) setdiff(x,原创 2018-04-26 17:57:30 · 1142 阅读 · 0 评论 -
R语言的数据类型
1.向量与数据类型生成数据> numeric(25) [1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0[24] 0 0> character(25) [1] "" "" "" "" "" "" "" "" "" "" &原创 2018-04-13 14:53:01 · 301 阅读 · 0 评论 -
决策树
1. 使用party包构建决策树 决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。 由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entr...原创 2018-04-16 16:33:58 · 776 阅读 · 0 评论 -
随机森林
随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。该分类器最早由Leo Breiman和Adele Cutler提出,并被注册成了商标。根据下列算法而建造每棵树:用N来表示训练用例(样本)的个数,M表示特征数目。输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。从N个训练用例(样本)中以有放回抽样的方式,取样N次,形成一个训练集(即bootstrap取样),并...原创 2018-04-16 17:01:53 · 893 阅读 · 0 评论 -
数据集
数据挖掘的主要技术包括分类与预测,聚类,离散点检测,关联分析,序列分析,时间序列分析和文本挖掘,可能还有社交网络分析和情感分析分析要用到的数据集有:> str(iris)'data.frame': 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ... $ Sepal....原创 2018-04-13 15:20:52 · 429 阅读 · 0 评论 -
数据的导入和导出
1. R数据的保存和加载> a <- 1:10> save(a, file = "temp.Rdata")> rm(a)> load("temp.Rdata")> a [1] 1 2 3 4 5 6 7 8 9 102. csv文件的导入和导出> var1 <- 1:5> var2 <- 1:5 /原创 2018-04-13 15:53:46 · 536 阅读 · 0 评论 -
回归分析
R语言进行回归分析 回归分析是对多个自变量(预测变量)建立一个函数来预测因变量(响应变量)的值。如银行根据房贷申请人的年龄,收入,开支,职业,负担人口以及整体信用限额等因素来评估申请人的房贷风险。 ...转载 2018-04-19 10:01:41 · 870 阅读 · 0 评论 -
R语言中描述统计量的多种方法summary()、describe()、str()等
1.查看数据> dim(iris)[1] 150 5> names(iris)[1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" [5] "Species" > str(iris)'data.frame': 150 obs. of 5 variables: $ Sep原创 2018-04-13 17:05:54 · 31663 阅读 · 1 评论 -
聚类
1.K-means聚类将iris数据集上演示K-means聚类的过程,首先要从iris数据集中移除Species属性,然后再对数据集iris2调用函数,并将聚类结果储存在变量kmeans.result中。> attach(iris)> iris2 <- iris> iris2$Species <- NULL> (kmeans.result <- kme...原创 2018-04-20 14:34:14 · 500 阅读 · 0 评论 -
离群点检测
1.单变量离群点检测> set.seed(3147)> x <- rnorm(100)> summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. -3.3150 -0.4837 0.1867 0.1098 0.7120 2.6860 > boxplot.stats(x)$out[1] -3....原创 2018-04-27 14:38:11 · 2686 阅读 · 0 评论 -
R语言中的循环函数(Grouping Function)
深蓝居R语言中有几个常用的函数,可以按组对数据进行处理,apply, lapply, sapply, tapply, mapply,等。这几个函数功能有些类似,下面介绍下这几个函数的用法。 Apply 这是对一个Matrix或者Array进行某个维度的运算。其格式是: Apply(数据,维度Index,运算函数,函数的参数) 对于Matrix来说,其维度值为2,第二个参数维度Index中,1...转载 2018-06-20 20:59:30 · 2124 阅读 · 0 评论 -
R语言中do.call()的用法
简单参数设置就能搞定的事情,是不会用到do.call的。在运用R的过程中总会碰到这样一类函数,它们接受的参数数量可以是任意的,该函数会处理这些参数,并返回处理结果。最简单的例子就是data.frame。比如:> x1 = 1:10> x2 = 11:20> x3 = 21:30> data.frame(x1,x2,x3) x1 x2 x31 1 11 21...转载 2018-06-20 21:13:41 · 7682 阅读 · 0 评论 -
分析与可视化ROC——plotROC、pROC
ROC曲线的本质以及如何计算和绘制ROC曲线。注意,我这里谈到的ROC并未曾涉及机器学习模型的拟合与预测,而是指存在一组真实的连续型数值数据设定阈值的不同对响应变量(二分类)的影响(真阳性率、假阳性率)。这一篇文章我们学习两个跟ROC相关的R包:plotROC - Generate ROC Curve Charts for Print and Interactive Use pROC -...转载 2019-01-11 08:10:28 · 3067 阅读 · 1 评论