R与数据分析
华仔宝宝
这个作者很懒,什么都没留下…
展开
-
R通过RJDBC连接外部数据库
1、连接hivelibrary(RJDBC)drv=JDBC(“org.apache.hive.jdbc.HiveDriver”,list.files("/home/Hadoop/hive/lib",pattern="jar$ ",full.names=TRUE,recursive=TRUE))conn=dbConnect(drv,sprint(‘jdbc:hive2://$ {IP}: ...原创 2020-03-23 21:48:04 · 195 阅读 · 0 评论 -
R 通过RJDBC连接hive
RJDBC常用函数:1、 JDBC(驱动,jar包,分隔符):加载数据库驱动2、 dbConnect(驱动参数,url,用户名,密码,其他):连接数据库3、 dbGetQuery(conn, “select count(*) from iris”):查询语句4、 dbDisconnect(conn):关闭连接1. 首先要安装rJava这个包R的许多包都要依赖rJava这个包。安...原创 2020-03-23 20:03:11 · 619 阅读 · 0 评论 -
R交互化展示-shiny包
install.packages(“shiny”)library(shiny)#查看实例runExample()runExample(“01_hello”)#定义web应用的用户界面shinyUI(pageWithSidebar(#应用名称/标题/主面板数据headerPanel(“hello”),sidebarPanel(),mainPanel()))...原创 2020-03-22 21:39:30 · 756 阅读 · 0 评论 -
R数据可视化-ggplot2包
ggplot2作图qplot函数:install.packages(“ggplot2”)library(ggplot2)#ggplot2自带的数据集diamondsdiamondsgetOption(“max.print”)options(max.print=100000)#作图qplot(carat,price,data=diamonds)qplot(log(carat),l...原创 2020-03-22 21:36:21 · 808 阅读 · 0 评论 -
R数据加工厂-plyr包
plyr包的基本函数:**主函数:ply() 函数族aaply()函数、adply()函数、alply()函数、daply()函数、ddply()函数、dlply()函数、mply()函数按输入分类,:分为aply(), dply(), lply()三大类:aply(.data, .margins, .fun, …, .progress = “none”)dply(.data, .var...原创 2020-03-22 21:19:45 · 331 阅读 · 0 评论 -
R网络爬虫-RCurl包
RCurl这个程序包提供了由R到libcurl库的接口,从而实现HTTP的一些功能。例如,从服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等等。超文本传输协议(HTTP)是一种通信协议,它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。URL详解:基本格式:schema://host[:port#]/path/…/[?query-stri...原创 2020-03-22 21:42:43 · 930 阅读 · 0 评论 -
R做数据处理
1、数据获取的SQL语句#查看创建的表SHOW CREATE TABLE dmk.dmk_sal_actual_sales_dtl;#用原有的表创建一张新表CREATE TABLE temp.dmk_sal_actual_sales_dtl_test asSELECT * from dmk.dmk_sal_actual_sales_dtl TWHERE t.period_wid&...原创 2020-03-23 20:36:54 · 132 阅读 · 0 评论 -
R实现数据抽样
训练集与测试集 x为输入变量,y为输出变量。利用训练集中的x,y建立模型。将测试集中的x带入模型,来预测测试集目标输出变量y的值,设为y’,将训练集的x带入模型,来预测训练集目标输出变量y的值,设为y’’。那么y’’与y的误差评价了模型的拟合程度,即自己对自己的契合程度;而y’与y的误差则评价了模型的推广程度,即与别人的契合程度。当我们说一个模型相对较好时,往往指该模型的拟合程度和推...原创 2020-03-22 21:49:03 · 1057 阅读 · 0 评论 -
R构建RFM模型
RFM模型仅仅是一个前期的探索性分析,可以利用RFM模型输出的指标结果还可以进行其他分类以及降维模型的构建,深入探索客户数据价值,挖掘潜在营销点。RFM模型是市场营销和CRM客户管理中经常用到的探索性分析方法,透过模型深入挖掘客户行为背后的价值规律,进而更好地利用数据价值推动业务发展和客户管理。RFM是三种客户行为的英文缩写:R:Recency —— 客户最近一次交易时间的间隔。R值越大,...原创 2020-03-22 21:53:34 · 828 阅读 · 0 评论 -
R做购物篮关联分析
运用apriori算法#安装arules包并加载#内置Groceries数据集install.packages(“arules”) #下载软件包library(arules) #加载aru...原创 2020-03-23 20:23:40 · 642 阅读 · 0 评论 -
用R做时间序列分析之ARIMA模型预测
第一步.对原始数据进行分析一.ARIMA预测时间序列指数平滑法对于预测来说是非常有帮助的,而且它对时间序列上面连续的值之间相关性没有要求。但是,如果你想使用指数平滑法计算出预测区间,那么预测误差必须是不相关的, 而且必须是服从零均值、 方差不变的正态分布。即使指数平滑法对时间序列连续数值之间相关性没有要求,在某种情况下,我们可以通过考虑数据之间的相关性来创建更好的预测模型。自回归移动平均模型(...原创 2020-03-22 20:54:25 · 2097 阅读 · 0 评论 -
R做聚类分析
数据中心化与标准化变换:scale函数scale(x, center = TRUE, scale = TRUE)其中x是样本构成的数据矩阵,center为逻辑变量,表示对数据进行中心化变换,scale也为逻辑变量,表示对数据进行中心化变换距离计算函数dist:dist(x,method=“euclidean”,diag=FALSE,upper=FALSE,p=2)其中x是样本矩阵或者数据...原创 2020-03-22 21:13:32 · 735 阅读 · 0 评论 -
R做判别分析
线性判别法:library(MASS)ld=lda(G~x1+x2)z=predict(ld)newG=zclasscbind=(G,zclasscbind=(G,zclasscbind=(G,zx,newG)距离判别法该方法适用于连续型随机变量的判别类,对变量的概率分布没有限制。R程序名:(distinguish.distance.R)distinguish.distanc...原创 2020-03-23 20:19:01 · 585 阅读 · 0 评论 -
R做线性回归
一元线性回归:a<-lm(w~1+h1+h2) #一元线性回归,a为模型赋值,w为因变量。h1,h2为自变量Summary(a) #线性模型的汇总数据,t检验Predict(a) #作出预测plot(h1,a) ...原创 2020-03-22 21:37:33 · 370 阅读 · 0 评论 -
R做因子分析
factanal(x, factors, data = NULL, covmat = NULL, n.obs = NA,subset, na.actionstart = NULL,scores = c(“none”, “regression”, “Bartlett”),rotation = “varimax”, control = NULL, …)其中x是数据的公式、矩阵或数据框,facto...原创 2020-03-23 20:25:19 · 1120 阅读 · 0 评论 -
R做主成分分析
1、princomp函数princomp(formula, data = NULL, subset, na.action, …)其中formula是没有响应变量的公式(类似回归分析、方差分析,但无响应变量),data是数据框(类似回归分析、方差分析)或:princomp(x, cor = FALSE, scores = TRUE, covmat = NULL,subset = rep(TR...原创 2020-03-23 21:45:01 · 1695 阅读 · 0 评论 -
R语言实现方差分析
方差分析对数据的要求:满足正态性(来自同一正态总体)和方差齐性(各组方差相等),在这两个条件下,若各组有差异,则只可能是来自影响因素的不同水平。用aov()函数进行方差分析,基本格式为:aov(formula, data=NULL, projections=FALSE, qr=TRUE,contrasts=NULL, …)其中,formula为方差分析公式;data为数据框;pro...原创 2020-03-23 21:42:45 · 4987 阅读 · 0 评论 -
R进行相关性分析
一、相关性矩阵计算:[1] 加载数据: data = read.csv(“231-6057_2016-04-05-ZX_WD_2.csv”,header=FALSE)说明:csv格式的数据,header=FALSE 表示没有标题,即数据从第一行开始。[2] 计算相关性矩阵(可以自己指定采用的方法,“pearson”, “kendall”, “spearman”)注:cor(x,y,me...原创 2020-03-22 21:38:47 · 2712 阅读 · 0 评论 -
R包的查看与安装
R的包(package)通常有两种:1 binary package:这种包属于即得即用型(ready-to-use),但是依赖与平台,即Win和Linux平台下不同。2 Source package: 此类包可以跨平台使用,但用之前需要处理或者编译(compiled)。.libPaths():查看包的安装目录library():查看已经安装的包目录installed.packages(...原创 2020-03-22 20:58:19 · 4551 阅读 · 0 评论 -
R基础语句
产生向量:1、x=1:10 2、x=2:60*2+1 3、x[5] #取向量的第5个元素 4、x[-5] #将向量的第5个元素去掉 5、x[c(2,4,7)] #取向量的第2,4,7个...原创 2020-03-22 20:48:12 · 745 阅读 · 0 评论