- 博客(35)
- 资源 (1)
- 收藏
- 关注
转载 [转] R 置信区间、预测区间差别
原文地址: https://www.cnblogs.com/100thMountain/p/5539024.htmlAsk:什么是预测区间,置信区间和预测区间二者的异同是什么? Answer:置信区间估计(confidence interval estimate):利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间。预测区间估计(prediction in...
2018-07-06 08:24:00
13004
转载 [转] R 代码 00003 18.06.19
# 知识来源于网络,仅供交流使用,如有侵权请及时联系予以删除# Librarieslibrary(data.table)library(magrittr)library(ggplot2)library(scales)library(stringr)library(quanteda)library(gridExtra)# Data Overviewtrain <- fr...
2018-06-20 16:08:33
327
转载 [转] R 绘图ggplot2 一页多图及子图嵌入主图的多种实现方法
原文:https://mp.weixin.qq.com/s/tHbasjxsKbbnaIn7nP2D4g一、一面多图的实现方法:- 输入:minute <- c(110,118,120,123,131,137,144,149,152,160)VC <- c(5283,5299,5358,5292,5602,6014,5830,6102,6075,6411)lrdata <- ...
2018-06-18 09:34:23
19379
转载 [转] R 简单线性回归 18.06.18
原文:https://mp.weixin.qq.com/s/SGIvgqX7mLv563fqYmze9g简介- 建立平均每周锻炼时间(minute)与平均肺活量(VC )回归方程- 输入:minute <- c(110,118,120,123,131,137,144,149,152,160)VC <- c(5283,5299,5358,5292,5602,6014,5830,6102,...
2018-06-18 08:45:09
389
转载 [转] R 函数
# 知识来源于网络,仅供交流使用,如有侵权请及时联系予以删除str_extract_all() # 字符提取,按照指定规则 x<-"abacdef123456789g" str_extract_all(x,"[adef0-9]{2,5}") # 按照给定的[字符]提取出来,且提取出的各个字符串,最少1个字符,最多5个字符separate() # 字符...
2018-06-16 15:14:11
362
转载 [转] R 专业英语
# 知识来源于网络,仅供交流使用,如有侵权请及时联系予以删除逻辑回归 logistic regression 英 [riˈɡreʃən] 美 [rɪˈɡrɛʃən]
2018-06-16 15:13:52
224
转载 [转] 大数据比赛题目
原文:https://www.sohu.com/a/203479583_486129赛题一:登录行为识别参赛者要根据用户登录的种种蛛丝马迹,预测交易是否有风险。估计优胜者的答案,足以让全网用户沸腾吧?毕竟,网购登录关乎每个人的账户安全。感谢大数据时代,风控技术不断升级,让我们可以在享受乐趣的同时,享受科技的保驾护航。赛题二:店铺销量预测这道赛题,要求参赛者对店铺开展贷款业务和经营状况等数据进行定量...
2018-06-13 16:38:47
5227
转载 [转] R ggplot2包介绍学习
原文地址:https://www.cnblogs.com/nxld/p/6059603.html分析数据要做的第一件事情,就是观察它。对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测?ggplot2图形之基本语法:ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离ggplot2是按图层作图ggplot2保有命令式作图的调整函数,使其更具灵活性ggplot2将...
2018-06-12 13:39:05
5119
转载 目录 R 学习
数据处理1、[转] R 1 常用操作 https://blog.csdn.net/scpcmoon/article/details/80523153 数据生成、常用运算、文件操作、数据库连接2、[转] R 2 数据观察 https://blog.csdn.net/scpcmoon/article/details/80604619 主体查看、数据查看、分布情况、统计量、贡献度...
2018-06-09 16:52:25
170
转载 目录 R 术语学习
1、转 R 问题等待处理:https://mp.csdn.net/postedit/806323892、[转] 无偏估计:https://mp.csdn.net/postedit/80549835 1)估计量评价的标准 2)为什么随机变量的方差的估计的分母是n-13、[转]浅谈方差、协方差矩阵、相关系数矩阵:https://blog.csdn.net/scpcmoon...
2018-06-09 16:00:44
230
转载 转 R 主成分分析
# 1、数据准备tt<-USJudgeRatings # 2、主成分个数判断# 方法1、由于我们是通过特征值大小来找主成分的次序,所以KAISER-Harris准则保留特征值大于1的主成分—-碎石图install.packages("psych")library(psych)fa.parallel(USJudgeRatings[,-1],fa="pc",n.iter = 100,sho...
2018-06-09 15:18:14
347
转载 转 R 线性回归的最小二乘法(OLS回归)
全称:线性回归的最小二乘法(OLS回归),ordinary least square,字面翻译:普通最小平方;内容:包括三个部分:简单线性回归、多项式回归、多元线性回归;原理:最小二乘法,即使回归函数与实际值之差的平方和最小,来找出线性表达式的各个参数;前提假设: 1)线性:y = α+βx+u,其中:α为常量,βx泛指确定性自变量及对应系数的方程式,u为随机误差; 这...
2018-06-09 13:34:32
23328
1
转载 [转] R 4 字符串处理
# 数据准备x<-c("abcd","abcdef","good")x1<-"gabcde"y<-"好好"z<-"学习"z1<-"天天向上"# 1、查询函数nchar(x1) # 字符串的长度,即有几个字符nchar(x) # 字符串向量中,每个字符串的长度length(x)
2018-06-07 15:35:58
199
转载 [转] R 2 数据观察
# 1、主体查看 class(data) #查看对象类型 str(data) #探寻数据集内部结构 summary(data) #获取数据集data的概括信息 dim(data) #查看数据集data的纪录数和维度数 nrow(data) #查看行数 ncol(data) #查看列数 length(data) #查看列...
2018-06-07 09:55:36
493
转载 [转] R 解读逻辑回归结果:回归系数,OR
原文地址:深入解读Logistic回归结果(一):回归系数,OR作者:王江源转文地址https://blog.csdn.net/sjpljr/article/details/70169046 作者:sjpljr我想说,你们真是太厉害了!Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。 一 从线性回归到Logistic...
2018-06-05 17:25:10
24283
1
转载 转 R 广义线性模型1 自变量:Logistic
计划问题:婚内出轨的原因分析# 1、准备数据install.packages("AER")data(Affairs,package="AER")tt<-Affairs# 数据集中的几个字段:# affairs出轨次数,gender性别,age年龄,yearsmarried婚龄,children是否有小孩,# religiousness宗教信仰评分,educationj教育程度,oc...
2018-06-05 16:50:12
682
转载 转 R 分类分析
# 1、加载包、数据准备library(C50)tt<-data.frame( x1=c(2959.19, 2459.77, 1495.63, 1046.33, 1303.97, 1730.84, 1561.86, 1410.11, 3712.31, 2207.58, 2629.16, 1844.78, 2709.46, 1563.78, 1675.75, ...
2018-06-04 17:48:31
428
转载 转 R 分类处理
# 1、数据准备# 1、数据准备tt<-data.frame( x1=c(2959.19, 2459.77, 1495.63, 1046.33, 1303.97, 1730.84, 1561.86, 1410.11, 3712.31, 2207.58, 2629.16, 1844.78, 2709.46, 1563.78, 1675.75, 1427.65,...
2018-06-04 17:02:40
443
转载 [转] R 逐步回归分析 AIC信息统计量
逐步回归分析是以AIC信息统计量为准则,通过选择最小的AIC信息统计量,来达到删除或增加变量的目的。R语言中用于逐步回归分析的函数 step() drop1() add1()#1.载入数据 首先对数据进行多元线性回归分析tdata<-data.frame( x1=c( 7, 1,11,11, 7,11, 3, 1, 2,21, 1,11,10), x2=c(26,29,...
2018-06-04 13:37:11
12129
转载 [转] R 提升预测模型的方法
1.改善数据(能否获得更多的数据、能否创造更多的数据、清洗数据、重新采样、重新界定问题、重新缩放、转化数据、数据映射或降维、特征选择、特征工程)2.改善算法(重采样、评价指标、基线性能、标准参数设置)3.改善参数(诊断(学习曲线,overfitting or underfitting)、随机搜索、网格搜索、算法定制)4.模型融合(bagging、boosting、 stacked generali...
2018-06-04 08:40:13
685
转载 [转] R中常用数据挖掘算法包
数据挖掘主要分为4类,即预测、分类、聚类和关联,根据不同的挖掘目的选择相应的算法。R语言博大精深,吸纳了来自各方的挖掘算法包,这些包都是由统计学家或是算法研究人员提供,我们可以站在这些伟人的肩膀上实现算法的应用。下面对常用的数据挖掘包做一个汇总:连续因变量的预测:stats包 lm函数,实现多元线性回归stats包 glm函数,实现广义线性回归stats包 nls函数,实现非线性最小二乘回归rpa...
2018-06-04 08:36:44
535
转载 转 精辟,太生动了,太形象了。应用于实践,价值无比!
①二哥要出国旅游,让三哥帮忙看家,临走前特别交代:家里的藏獒随便逗,别惹鹦鹉。之后,三哥怎么逗藏獒,藏獒都不咬人。三哥心想:藏獒都这样,这鹦鹉也就一破鸟,能把我怎样?遂逗鹦鹉玩。结果,鹦鹉开口说话:咬他!藏獒扑上……三哥,享年27……评:当今社会,最牛逼的不是厉害的人,而是能调动“资源”的人。 因为你永远不知道他们后面站着谁!…… ②二哥旅游回来,带回一个八哥。到家一看此情景,悲痛欲绝,遂问鹦鹉怎...
2018-06-04 08:30:53
201
转载 转 数据分析与HRM
引子:一个金融服务企业的公司领导和人力资源认为来自名校的优等生将会成为优秀的销售人员,因而该公司在招聘、甄选和晋升时都需要考虑学历。但数年过后,该金融服务企业的一位数据分析师进行了一次销售人员业绩分析,将销售人员进公司后前两年的销售业绩、总体业绩、存活率进行综合分析后得出来的发现令人吃惊,企业的传统招聘价值观与实际情况完全不符:虽然本案例中的金融服务企业的人才观是三十多年来该公司得以成功关键,因而...
2018-06-04 08:25:49
1179
转载 转 简单多项回归
例子:销售额x与流通费率yxx = c(1.5,2.8,4.5,7.5,10.5,13.5,15.1,16.5,19.5,22.5,24.5,26.5)yy = c(7.0,5.5,4.6,3.6,2.9,2.7,2.5,2.4,2.2,2.1,1.9,1.8)tt<-data.frame(xx,yy)names(tt)<-c("x","y")plot(tt$x,tt$y)...
2018-06-03 10:54:42
198
转载 [转]R 模型评估
1、决定系数--复相关系数__R、决定系数__R方、校正决定系数__校正R方 A、复相关系数__R: 指的是多元回归系数,表示模型中y值与估计y值之间的相关系数,实际上是皮尔逊相关。 R取值范围是[ 0,1 ],没有负值。R越大表明模型越好。但是R值多大算是最好,并没有定论,通常在社会学科中,R>0.4就算是足够好了;但是在科学领域,R>...
2018-06-03 08:22:13
935
转载 [转] 无偏估计
无偏估计 无偏估计:估计量的均值等于真实值,即具体每一次估计值可能大于真实值,也可能小于真实值,而不能总是大于或小于真实值(这就产生了系统误差)。估计量评价的标准:(1)无偏性 如上述(2)有效性 有效性是指估计量与总体参数的离散程度。如果两个估计量都是无偏的,那么离散程度较小的估计量相对而言是较为有效的。即虽然每次估计都会大于或小于真实值,但是偏离的程度都更小的估计更优。(3)一致性 又称相...
2018-06-02 17:33:09
2392
转载 [转]浅谈方差、协方差矩阵、相关系数矩阵
一、统计学的基本概念统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:均值:标准差:方差:均值描述的是样本集合的中间点,它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的均值都是10,但显然两个集合的差别是很...
2018-06-02 16:24:29
24184
1
转载 分类 来源网络 分群
#背景:某次3门考试后,根据成绩,决定有限资源倾斜#目标:将学生进行分层,便于后期聚焦管理#环境设置options(digits = 2) #数据输入Student<-c("John Davis","Angela Williams","Bullwinkle Moose","David Jones", "Janice Markhammer","Cheryl Cu
2018-06-01 10:49:47
1032
转载 [转] R 数据框数据处理
1、书本基本数据管理实操练习1.1生成一个数据框示例manager <- c(1,2,3,4,5)date <- c("10/24/08","10/28/08","10/1/08","10/12/08","5/1/09")country <- c("US","US","UK","UK"
2018-05-31 16:41:21
532
转载 [转] R自带数据包
原文地址:R语言系列:datasets(R自带数据包)作者:老虎牛向量euro #欧元汇率,长度为11,每个元素都有命名landmasses #48个陆地的面积,每个都有命名precip #长度为70的命名向量rivers #北美141条河流长度state.abb #美国50个州的双字母缩写state.area #美国50个州的面积state.name #...
2018-05-31 16:17:06
4167
转载 [转] R 1 常用操作
查看目录及更改目录getwd() #查看工作目录setwd("E:/") #改变工作目录安装及释放包install.packages("packge-name") #安装包library(packge-name) #安装包删除R软件运行时保存在内存中的所有对象rm(list=ls(all=TRUE)) 加载数据集data data(data)...
2018-05-31 16:02:42
373
转载 [转] R 3 数据处理
常规数据查看data(data) #加载数据集data head(data) #显示数据集data的前若干条数据 tail(data) #显示数据集data的后若干条数据 class(data) #查看对象类型 str(data) #探寻数据集内部结构 summary(data) #获取数据集data的概括信息 dim(dat...
2018-05-31 16:02:34
232
转载 [转] R 待定操作
释放包 detach(package:packge-name) 并行运算设置library(doParallel)cl <- makeCluster(15)registerDoParallel(cl)报错空间溢出:Java heap space,需要设置运行内存library(rJava).jinit(parameters="-Xmx7888m")...
2018-05-31 16:01:17
182
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人