大数据 | 数据挖掘 | R语言
文章平均质量分 55
gjwang1983
这个作者很懒,什么都没留下…
展开
-
R语言 | 多元回归分析中的对照编码(contrast coding) | 第二节 deviation coding(偏差编码)
Deviation coding是一种contrast编码方式。因为采用该contrast的回归方程的回归系数之和等于0,又称作sum contrast。Deviation Coding的定义是每个Level的反应变量的均值(Mean_per_Level)与每个Level的反应变量的均值的均值(Grand_Mean)进行对比。参考dummy coding文中的例子。如下原创 2015-04-10 23:08:34 · 8096 阅读 · 2 评论 -
R语言 | 数据挖掘中的常用统计分析知识
F检验p值ChiSquare核密度函数原创 2015-04-20 20:10:57 · 1647 阅读 · 0 评论 -
R语言 | 关联规则
关联规则(AssociationRules)是无监督的机器学习方法,用于知识发现,而非预测。关联规则的学习器(learner)无需事先对训练数据进行打标签,因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估,一般都可以通过肉眼观测结果是否合理。 关联规则主要用来发现Pattern,最经典的应用是购物篮分析,当然其他类似于购物篮交易数据的案例也可以应用关联规则进行模式发现。原创 2015-04-12 22:48:05 · 101155 阅读 · 33 评论 -
R语言-RJDBC连接Teradata
第一步:从Teradata官方网站现在JDBC driver第二步:把Driver放在一个目录下(我放在C:\JDBC)第三步:为R按照RJDBC packageinstall.packages("RJDBC")安装成功后,可以键入如下代码进行连接Teradata> library(RJDBC)> jdbc.drv> jdbc.conn原创 2015-04-07 20:47:23 · 3494 阅读 · 1 评论 -
R语言-地理信息数据
> data(world.cities)> world.cities[world.cities$country.etc=='China',]> map.cities(country = "China", capitals = 2)原创 2015-04-07 20:48:18 · 2652 阅读 · 0 评论 -
R语言-数据操作之选择
SQLSELECT *FROM tableWHERE a BETWEEN 1 AND 100R方法1: 下标选取> A > A[1] 10 20 30 40 50 60 70 80 90> A[2][1] 20> A[2:4][1] 20 30 40> A[c(1,3,5)][1] 10 30 50> A[原创 2015-04-07 20:44:35 · 11171 阅读 · 0 评论 -
R语言-数据操作之排序
SQL SELECT x, yFROM table_1ORDER BY x, y DESCRorder(X, na.last=TRUE, decreasing=FALSE)返回值: X排好序的下标向量na.last 控制空值NA排在最前还是最后,默认最后desceasing 控制升序还是降序排列原创 2015-04-07 20:46:03 · 30029 阅读 · 0 评论 -
R语言自定义启动环境
平时做R开发时,每次启动R环境都会要加载很多package,甚是繁琐。最近学习《R in action》时,介绍了自定义R启动环境的方法。windows环境下,R启动时会到R_Home\etc目录下找Rprofile.site文件,其中“R_Home”指的是R安装目录,例如c:\R。可以用notepad等文本编辑器打开c:\R\etc\Rprofile.site,进行修改转载 2015-04-12 19:53:05 · 4561 阅读 · 0 评论 -
R语言-内存管理
编程方法:通过rm删除变量,gc进行垃圾回收(不建议手动操作)xls()rm(x)gc()原创 2015-04-07 20:46:31 · 1286 阅读 · 0 评论 -
R语言的中文支持
Sys.setlocale(,"CHS")原创 2015-04-07 20:43:53 · 5665 阅读 · 1 评论 -
R语言 | 多元回归分析中的对照编码(contrast coding) | 第一节 dummy variable(哑变量) 和 dummy coding
对于一个自变量是Categorical Factor的回归模型,需要为每个Level创建dummy variable。Contrast Matrix把每个Level映射到dummy variable的值。我们来看一个例子来感性认识下dummy variable和contrast matrix。> library(datasets)> str(ChickWeight)Clas原创 2015-04-10 21:24:39 · 24611 阅读 · 2 评论 -
R语言 | 单元变量的数据可视化方法
Uni-variate data 一元变量的数据分析方法原创 2015-04-21 14:22:44 · 1948 阅读 · 0 评论