R
weixin_41560991
这个作者很懒,什么都没留下…
展开
-
读书笔记_第二章
#R中用于管理R工作空间的函数getwd() #显示当前的工作目录dir.exists("D:/Script/R/charpter_2") #判断当前文件夹是否存在,FALSE,TRUEdir.create("D:/Script/R/charpter_2") #创建charpter_1文件夹setwd("D:/Script/R/charpter_2") #修改当前的工作目录,windows...原创 2019-02-01 11:32:48 · 263 阅读 · 0 评论 -
读书笔记_第十五章
#时间序列#横截面数据 cross-sectional#在横截面数据集中,我们是在一个给定的时间点测量变量值#纵向数据 longitudinal#随时间的变化饭粗测量变量值#将研究在给定的一段时间内有规律的记录的观测值,对于这样的观测值,我们可以将其整合成形如Y1,Y2...的时间序列#对于时序数据基本研究两个问题#1 对数据的描述,这段时间内发生了什么#2 预测,接下来...原创 2019-02-02 21:35:27 · 982 阅读 · 0 评论 -
读书笔记_第十六章
#聚类分析#聚类分析是一种数据归约技术,旨在揭露一个数据集中观测值的子集#它可以把大量的观测值规约为若干个类#这里的类被定义为若干个观测值组成的群组,群组内观测值的相似度比群间相似度高#最常用的聚类方法:#方法一,层次聚类#在层次聚类中,每一个观测值自成一类,这些类每次两两合并,直到所有类被聚成一类为止#常用算法包括:单联动,全联动,平均联动,质心,和Ward方法#方法二,...原创 2019-02-02 21:35:37 · 614 阅读 · 0 评论 -
读书笔记_第十七章
#分类#有监督机器学习#基于一组包含许多可用于分类的方法,#基于一组包含预测变量值和输出变量值的样本单元#将全部数据分成一个训练集和一个验证集,其中训练集用于建立预测模型,验证集用于测试模型的准确性#如逻辑回归,决策树,随机森林,支持向量机,神经网络等#用训练集建立模型并测试模型会使得模型的有效性被过分夸大#而用单独的验证集来测试基于训练集得到的模型则可使得估计更准确,更切合实际...原创 2019-02-02 21:35:48 · 1868 阅读 · 0 评论 -
读书笔记_第十八章
#处理缺失数据的高级方法#解决缺失数据的两种方法:#1:删除含有缺失数据的实例#2:用合理的替代之替换缺失值#不管是哪种方法,最后的结果都是没有缺失值的数据集#缺失数据的分类:#1 完全随机缺失 MCAR#若某变量的缺失数据与其他任何观测或未观测变量都不相关#2 随机缺失 MAR#若某变量上的缺失数据与其他观测变量相关,而与自己的未观测值不相关#3 非随机缺失 NMAR#...原创 2019-02-02 21:35:57 · 549 阅读 · 0 评论 -
读书笔记_第十九章
#使用ggplot2包进行高级绘图#ggplot2中,图是采用串联起来(+)号函数创建,每个函数修改属于自己的部分#当几何函数组合形成新类型的图时,ggplot2包的真正力量就会得到展现install.packages("ggplot2")library(ggplot2)#范例一ggplot(data=mtcars,aes(x=wt,y=mpg))+ geom_point...原创 2019-02-02 21:36:06 · 737 阅读 · 1 评论 -
读书笔记_第二十章
#高级编程#R是一种面向对象的,实用的数组编程语言#对象的名称由大小写字母,数字0~9,句号和下划线组成#名称是区分大小写的,而且不能以数字开头,句号被视为没有特殊含义的简单字符#所有的对象在程序执行时都存储在RAM中,这对大规模数据分析有显著的影响#数据类型#原子向量 atomic vector#原子向量是包含单个数据类型(逻辑类型,实数,复数,字符串或原始类型)的数组#每...原创 2019-02-02 21:36:15 · 3393 阅读 · 0 评论 -
读书笔记_第二十一章
#创建包#npar包,自动下载,自动安装#未运行成功,对应地址下并无此文件pkg <- "npar_1.0.tar.gz"loc <- "http://www.statmethods.net/RiA"url <- paste(loc,pkg,sep="/")download.file(url,pkg)install.packages(pkg,repos=NULL,...原创 2019-02-05 13:20:14 · 470 阅读 · 0 评论 -
读书笔记_第二十二章
#创建动态报告#范例一 用模板生成报告library("rmarkdown")render("example.Rmd","html_document")#对照范例 线性回归,单独代码实现l <- lm(weight~height,data=women)s <- summary(l)c <- coefficients(l) #返回相关系数向量class(c) ...原创 2019-02-05 13:20:22 · 487 阅读 · 0 评论 -
读书笔记_第二十三章
#lattice 高级绘图#像ggplot2一样,lattice图形有它自己的语法,提供了对基础图形的替代方案#lattice包提供了用于可视化单变量,多变量数据的一整套图形系统#许多用户转向使用lattice包是因为它能很容易的生成网格图形#网格图形能够展示变量的分布或变量之间的关系,每幅图代表了一个或多个变量的水平#lattice提供单因素图:点图,核密度图,直方图,条形图,箱线图...原创 2019-02-05 13:20:31 · 388 阅读 · 0 评论 -
项目02_TalkingData Mobile User Demographics R代码
#######step 1 start##############内存空间查看gc()memory.size(T) #查看已分配内存,6972 memory.size(F) #查看已使用内存,6852.55 memory.limit() #查看内存上限,返回8075memory.limit(size=20000) #扩大内存上限#批量导入.csv数据library("...原创 2019-02-24 19:43:38 · 538 阅读 · 0 评论 -
读书笔记_第十四章
#主成分分析和因子分析#主成分分析,PCA#一种数据降维技巧,它能将大量相关变量转换为一组很少的不相关变量,这些无关变量称为主成分#探索性因子分析,EFA#一系列用来发现一组变量的潜在结构的方法。#它通过寻找一组更小的,潜在的或隐藏的结构来解释已观测到的,显示的变量间的关系#主成分,因子模型的区别#主成分(PC1和PC2)是观测变量的线性组合#形成线性组合的权重都是通过最大化...原创 2019-02-02 21:35:18 · 595 阅读 · 0 评论 -
读书笔记_第十三章
#广义线性模型#广义线性模型扩展了线性模型的框架,它包含了非正态因变量的分析#Logistic回归#当通过一系列连续型、类别性预测变量来预测二值型结果变量时,logistic回归是一个非常有用的工具#范例一install.packages("AER")data(Affairs,package="AER") #进行包中指定的数据加载,Affairs变成全局变量summary(A...原创 2019-02-02 21:35:08 · 361 阅读 · 1 评论 -
读书笔记_第十二章
#重抽样与自助法#置换检验#又称为随机化检验,或重随机化检验#假如你觉的假定数据成正态分布并不合适,或者担心离群点的影响,又或者感觉对于#标准的参数方法来说数据集太小,那么置换检验便提供了一个非常不错的选择#置换检验主要用于生成检验零假设的p值,它有助于回答"效应是否存在"这样的问题#置换方法对于获取置信区间和估计测量精度是比较困难的#对比传统基于正态理论的检验与置换检验#结果...原创 2019-02-02 21:34:56 · 400 阅读 · 0 评论 -
读书笔记_第一章
#R中的帮助函数help.start() #打开帮助文档首页help(mean) #Help窗口详细展示帮助页example(mean) #具体查看mean函数的示例,在console窗口展示#R中用于管理R工作空间的函数getwd() #显示当前的工作目录dir.exists("D:/Script/R/charpter_1") #判断当前文件夹是否存在,FALSE,TRUEdir...原创 2019-02-01 11:29:05 · 219 阅读 · 0 评论 -
读书笔记_第三章
#图形初阶getwd()par(mfrow=c(1,1)) #快速回答一图部署局面#线性回归画图attach(mtcars)plot(wt,mpg) #画散点图abline(lm(mpg~wt)) #在原图上添加回归线title("Regression of MPG on Weight") #在修改后的图上,增加图标题detach(mtcars)#代码保存图片pdf("m...原创 2019-02-01 14:48:03 · 332 阅读 · 0 评论 -
读书笔记_第四章
#创建数据框#注意 stringsAsFactors = FALSE 大小写,以及间距,否则将作为新列插入manager <- c(1,2,3,4,5)date <- c("10/24/08","10/28/08","10/1/08","10/12/08","5/1/09")country <- c("US","US",原创 2019-02-01 14:49:27 · 213 阅读 · 0 评论 -
读书笔记_第五章
#数值和字符处理函数abs(-4) #返回4,绝对值sqrt(25) #返回5,平方根sqrt(c(4,16,25)) #返回2,4,5,向量求平方根ceiling(3.475) #返回4,不小于3.475的最小整数floor(3.475) #返回3,不大于3.475的最大整数trunc(3.475) #返回3,取整数部分round(3.475,digits = 2) #返回3....原创 2019-02-01 14:51:22 · 247 阅读 · 0 评论 -
读书笔记_第六章
#基本图形install.packages("vcd")library("grid")library("vcd")#条形图#通过垂直的或水平的条形展示了类别型变量的分布(频数)counts <- table(Arthritis$Improved)barplot(counts, main = "Simple Bar Plot", xlab =...原创 2019-02-01 14:52:29 · 370 阅读 · 0 评论 -
读书笔记_第七章
#描述性统计分析myvars <- c("mpg","hp","wt")head(mtcars[myvars])# summary函数# 数值型变量,提供min,max,四分位数(1st QU,Median,3rd Qu),mean# 因子向量,逻辑向量,频数统计summary(mtcars[myvars])#sapply函数#自定义函数,对数值,剔除空值,计算平...原创 2019-02-01 14:53:35 · 373 阅读 · 0 评论 -
读书笔记_第八章
getwd()#回归分析#回归分析是统计学的核心 y~x,用x预测y,用解释变量来预测响应变量#有效的回归分析本就是一个交互的,整体的,多步骤的过程,而不仅仅是一点技巧#x:一个或多个预测变量(自变量或解释变量)#y:响应变量,因变量,校标变量或者结果变量#简单线性回归#当回归模型中包含一个因变量和一个自变量时,我们称为简单线性回归#myfit <- lm(formula...原创 2019-02-01 14:54:47 · 3165 阅读 · 0 评论 -
读书笔记_第九章
#方差分析#小写字母表示定量变量,大写字母表示组别因子#单因素ANOVA y~A#含单个协变量的单因素 y~x+A#双因素ANOVA y~A*B#含两个协变量的双因素 y~x1+X2+A*B#随机化区组 y~B+A#单因素组内ANOVA y~A+Error(Subject/A)#含组内因子(w)和单个组...原创 2019-02-01 14:55:52 · 1432 阅读 · 0 评论 -
读书笔记_第十章
#功效分析#可以帮助在给定置信度的情况下,判断检测到给定效应值是所需的样本数#反过来它也可以帮助你在给定置信度水平情况下,计算某样本量内能检测到给定效应值的概率#研究过程的关注点#样本大小,实验设计中每种条件/组中观测的数目#显著性水平,由I型错误的概率来定义。也可以把它看做效应不发生的概率#功效,多大的把握检测到它####1-显著性水平(效应不发生的概率)=置信区间#效应值,在...原创 2019-02-01 14:56:59 · 365 阅读 · 0 评论 -
读书笔记_第十一章
#中级绘图#散点图#用于描述两个连续型变量间(x,y)的关系#范例一attach(mtcars)plot(wt,mpg, main="Basic Scatter plot of MPG vs. Weight", xlab="Car Weight (lbs/1000)", ylab="Miles Per Gallon ", pch=19) #画散...原创 2019-02-02 21:34:41 · 452 阅读 · 0 评论 -
项目03_淘宝用户分析
#########第一步,源数据 start ##########大数据环境准备gc()memory.size(T) #查看已分配内存,6972memory.size(F) #查看已使用内存,6852.55memory.limit() #查看内存上限,返回8075memory.limit(size=20000) #扩大内存上限#df_tb <- read.ta...原创 2019-04-19 20:07:50 · 444 阅读 · 0 评论