![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
R
文章平均质量分 53
木南花
这个作者很懒,什么都没留下…
展开
-
【Udacity】3,2,11,阅读并将数据子集化--R
读取数据之前,我们要先设置我们的工作目录。#查看你所在的目录> getwd()[1] "C:/Users/Administrator/Documents"#设置所在的目录> setwd('C:\Users\Administrator\Downloads')Error: '\U' used without hex digits in charac正斜杠来划分你的路径...原创 2018-03-30 19:45:26 · 254 阅读 · 0 评论 -
【Udacity】3,5,12,相关性
1、相关性 相关性图解指南: 相关系数 推论统计学入门-相关系数 相关系数除了用字母 r 表示以外,通常还用希腊字母 ρ 表示。 计算相关系数的默认方法是 Pearson,大多数统计软件都是如此。你无需在计算 Pearson 积差相关时传递方法参数。> cor.test(pf$age,pf$friend_count,method = "pearson") Pe...原创 2018-04-06 16:43:31 · 260 阅读 · 0 评论 -
【项目二】探索性分析
项目概述在此项目中,你将使用 R 并运用探索性数据分析来探索一个变量或多个变量之间的关系,以及在一个选定的数据集中探索分布、异常值和反常现象。为什么进行这个项目?探索性数据分析(EDA)是在应用正式的、严格的统计分析之前,对数据的特征和关系的进行数字的和图表的测试。 EDA可以引起人们的洞察力,可以反映其他问题,并最终形成预测模型。这是对不良数据的一个重要的“防线”,也是一个可以...原创 2018-04-22 15:04:06 · 497 阅读 · 0 评论 -
【Udacity】3,5,10,将摘要与原始数据叠加
目的:将原始的age和friend_count的散点图和摘要绘制的图形放在一起1、更改原始数据的绘图颜色,以便在合并后仍然可以看清 导入数据getwd()library('ggplot2')pf <- read.csv('pseudo_facebook.tsv',sep = '\t')更改颜色ggplot(aes(x=age,y=friend_count),data=...原创 2018-04-06 15:07:03 · 771 阅读 · 1 评论 -
【Udacity】3,5,9,条件均值
我们在研究两个变量的关系是,散点图往往不能够准确的反应两者的关系,当我们想要研究收入随着年龄增长的变化,我们需要观察收入的平均数和中位数随着年龄变化的情况,而在R中,我们需要D Plyr的R软件包 D Plyr包 D Plyr简介 以下教程由 Hadley Wickham 于 2014 年在 useR 公布。 D Plyr简介 D Plyr教程(第一部分) D Plyr教程(第二部分 ...原创 2018-04-05 21:22:42 · 498 阅读 · 0 评论 -
【Udacity】3,5,3,散点图
最好使用散点图来研究两个连续变量之间的关系。 当我们像X和Y传递两个连续变量时,qplot自动选择散点图 1、qplot绘制散点图getwd()library('ggplot2')pf <- read.csv('pseudo_facebook.tsv',sep = '\t')#也可以用下面的代码导入数据--read.delim('pseudo_facebook.tsv')l...原创 2018-04-05 20:13:03 · 125 阅读 · 0 评论 -
Gapminder 数据
数据选择:从以下数据中选择任意一个数据集 Gapminder 数据 目的:选择数据集后从制作2-5个plots 使用 ggsave() 保存图形 对于一些 Gapminder 数据集,在转换为 csv 格式后,以下命令可能会很有用: read.csv(‘data.csv’, header = T, row.names = 1, check.names = F) 如果你想对调数据框中的行和...原创 2018-04-05 14:27:29 · 4231 阅读 · 0 评论 -
切割变量
Cut 函数 一、将某一变量按照固定的分组进行切割pf$year_joined.bucket <- cut(pf$year_joined, c(2004,2009,2001,2012,2014))原创 2018-04-11 19:29:59 · 556 阅读 · 0 评论 -
函数
floor() 函数向下舍入到最近的整数。 ceiling() 函数向上舍入到最近的整数。原创 2018-04-11 19:14:51 · 100 阅读 · 0 评论 -
【Udacity】3,5,19,噪声散点图
1、噪声散点图install.packages('alr3')library(alr3)data("Mitchell")?Mitchell> ggplot(aes(x=Month,y=Temp),data=Mitchell)++ geom_point() 2、理解数据 似乎这两个变量并不相关,但是X轴是月份,是一个相对离散的变量,且月份是按照1-12一...原创 2018-04-06 18:25:13 · 353 阅读 · 0 评论 -
带封面
1、价格的直方图,以颜色划分,以cut填充颜色library(ggplot2)data("diamonds")ggplot(aes(x=log(price),fill=cut),data=diamonds)+ facet_wrap(~color)+ geom_histogram()注意color和fill的区别,color是边框,fill是填充色> ggp...原创 2018-04-19 20:28:52 · 129 阅读 · 0 评论 -
安装tableau(public)
你可以使用 Tableau Public,它是免费版本,与个人版或专业版相比,无法连接所有的数据格式或者数据源,但是已经能够完成大部分的工作。它可以读取文本 (CSV) 文件和 Excel 文件中的数据,你将在这门课程中使用这两种文件。此外,你无法在计算机上保存工作簿,而是保存到云端的公共工作簿中。然后可以在那里下载工作簿,所以使用起来也没什么问题。转到 https://public.tabl...原创 2018-05-06 13:06:09 · 9078 阅读 · 0 评论 -
数据可视化--设计技巧
设计技巧我能给出的最好建议是在制作可视化图表时,第一次尝试不要过于投入。通常,你需要进行多次设计以强调要表达的意思。例如,我将逐步讲解我是如何设计你之前看到的失业率图表的。我想知道失业率随着时间推移如何变化,所以我从公共 OECD 数据网站上获取了一些数据。这些数据包含经济合作与发展组织 (OECD) 国家/地区的失业率(民用劳动力的百分比)。我第一次尝试时创建了一组直方图来显示每年的失业...原创 2018-05-06 12:03:04 · 405 阅读 · 0 评论 -
数据可视化--诚实设计
请勿歪曲数据你有责任确保以最真实的方式展示数据。人们的确会在可视化图表中撒谎,欺骗他人。最常见的方法是以各种方式歪曲条形图。下面是福克斯新闻在 2012 年展示的一个图表示例(他们总是犯这种错误)。 上图想要显示变化的税率。看起来像很大的变化(5 倍增长)。但是,如果再去看实际数字,就会发现仅从 35% 增长到了 39.6%,只有 13% 的增长( (百分之 4.6 的增长点)。人们...原创 2018-05-06 11:54:16 · 664 阅读 · 0 评论 -
R中移除某列
通过负选择来移除某列使用常量或者列号引用变量,进行移除data_set <- data_set[,-5]data_set <- data_set[,-16]使用变量名进行移除为了提高代码的可读性,代码中建议使用名称引用变量,而非使用常量或列号。data_set <- subset(data_set, select = -c(val1))通过下面的方式来通...原创 2018-05-05 10:27:23 · 61713 阅读 · 0 评论 -
钻石与价格预测
1、price和carat的散点图library(ggplot2)data('diamonds')ggplot(aes(x=carat,y=price),data=diamonds)+ geom_point()+ xlim(0,quantile(diamonds$carat,0.99))+ ylim(0,quantile(diamonds$price,0.99)) 注...原创 2018-04-21 20:15:12 · 4188 阅读 · 0 评论 -
diamond数据集经过分组、分面和填色的价格/克拉
练习: 经过分组、分面和填色的价格/克拉 Create a scatter plot of the price/carat ratio of diamonds. The variable x should be assigned to cut. The points should be colored by diamond color, and the plot should be facete...原创 2018-04-21 12:02:10 · 1214 阅读 · 0 评论 -
Prop_initiated与使用时长的图
目的: Create a line graph of the median proportion of friendships initiated (‘prop_initiated’) vs.tenureand color the line segment by year_joined.bucket.图片类似以下: > pf$year_joined <- floor(2014-...原创 2018-04-21 11:20:15 · 144 阅读 · 0 评论 -
价格和体积和钻石净度
1、所有数据的价格和体积和钻石净度–使用边框颜色> diamonds$volumn <- diamonds$x*diamonds$y*diamonds$z> ggplot(aes(x=volumn,y=log10(price),color=clarity),data=diamonds)++ geom_point() 2、所有数据的价格和体积和钻石净度–使用填...原创 2018-04-21 10:50:09 · 265 阅读 · 0 评论 -
用R进行数据整理
数据加工或数据整理占用数据科学家或数据分析员大量的时间,而 tidyr 和 dplyr 两种 R 包可使 R 中的这些任务更加简单。tidyr - 用于重塑数据布局的包dplyr - 用于帮助转换整洁的表格数据的包查看 R 语言内的数据整理,了解这些包如何能使你操纵数据。你可以使用这些包来帮助你完成下一个编程任务和未来的调查。你可能还需要下载这张有用的数据整理速查表。RStudio...原创 2018-04-03 21:14:40 · 1575 阅读 · 0 评论 -
R-table函数
一、R的diamonds数据中,选择数量大于2000的克拉数> table(diamonds$carat)[table(diamonds$carat)>2000] 0.3 0.31 1.01 2604 2249 2242原创 2018-04-03 21:03:24 · 4167 阅读 · 0 评论 -
【Udacity】3,3,22,转换数据
我们碰到的很多数据变量中都存在很长的尾巴,有一些数据会出现高于中位数很多倍的数据,这种数据我们称之为数据过离散。通常需要对这些数据进行变换,才能看到标准偏差或者量级,实际上我们在缩短尾巴。 1、先看看我们最初的图形qplot(x=friend_count,data=pf) 我们可以通过取对数来变换此变量,使用自然对数。以2为底的对数或者以10 为底的对数。 我们可以使用平方根,这样可...原创 2018-04-01 16:09:24 · 192 阅读 · 0 评论 -
【Udacity】3,3,28,符合逻辑
1、统计值> summary(pf$mobile_likes) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 4.0 106.1 46.0 25111.0 2、说明mobile_likes存在很多的0,可以尝试执行summary(pf$mobile_likes>0)代码,我们会...原创 2018-04-01 19:17:11 · 176 阅读 · 0 评论 -
【Udacity】3,3,26,箱型图
绘制箱型图,通常将连续变量作为Y轴,分类或者类别变量作为X轴 如何读懂并使用箱型图 四分位间距或者IQR 可视化 描述统计分析:匹配箱型图 1、绘制箱型图qplot(x=gender,y=friend_count, data = subset(pf,!is.na(gender)), geom='boxplot') 注: - 箱型图很容易对比两个类...原创 2018-04-01 18:55:59 · 252 阅读 · 0 评论 -
【报错】Error: stat_bin() must not be used with a y aesthetic.
在进行ggplot绘图的过程中,出现了“Error: stat_bin() must not be used with a y aesthetic.”的报错。 代码具体如下:> ggplot(aes(x = gender, y = age),+ data = subset(pf, !is.na(gender))) + geom_histogram()Error: st...原创 2018-04-08 20:46:23 · 8262 阅读 · 0 评论 -
【Udacity】3,7,3,第三个定性变量
一、导入数据library(ggplot2)getwd()pf <- read.csv('pseudo_facebook.tsv',sep = '\t')二、按照性别绘制年龄的箱型图ggplot(aes(x = gender, y = age), data = subset(pf, !is.na(gender))) + geom_boxplot() 三...原创 2018-04-08 20:32:49 · 187 阅读 · 0 评论 -
【Udacity】3,3,3,伪Facebook用户数据
导入数据,list.files()用于列出当前路径下的文件明细> getwd()[1] "C:/Users/Administrator/Downloads"> list.files() [1] "【模板】终止协议-专车-20170623.docx" "01DiDi-zhongwen.zip" [3] "01sh...原创 2018-03-31 18:42:29 · 264 阅读 · 0 评论 -
【Udacity】3,2,13,因子变量
因子变量使用数据reggit.csv,谁是reddit * 导入数据> getwd()[1] "C:/Users/Administrator/Documents"> setwd('C:/Users/Administrator/Downloads')> reggit <- read.csv('reddit.csv')使用搅拌命令,str命令–str(...原创 2018-03-31 15:56:40 · 574 阅读 · 0 评论 -
【Udacity】3,2,12,R-markdown文档
你需要安装并加载 knitr 包,以便使用 KNIT HTML 按钮。在 RStudio 控制台中运行以下命令,以安装并加载 knitr。install.packages('knitr', dependencies = T)library(knitr)注意R脚本和RMD文件的区别: R脚本只能包含R代码和备注,而RMD(R-Markdown文件)文件允许我们完成更多任务。 RMD...原创 2018-03-30 20:56:56 · 284 阅读 · 0 评论 -
【Udacity】3,3,3,频率多边形
频数多边形用来比较分布,优势就是比较两个或者多个分布 问题:男性和女性那个平均好友更多 1、friend_count分布直方图qplot(x=friend_count,data = subset(pf,!is.na(gender)),binwidth=10)+ scale_x_continuous(lim=c(0,1000),breaks = seq(0,1000,50)) ...原创 2018-04-01 16:47:53 · 927 阅读 · 0 评论 -
计算好友率
注意车里with函数的使用> with(subset(pf,tenure >= 1),summary(friend_count/tenure)) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0000 0.0775 0.2205 0.6096 0.5658 417.0000 > wit...原创 2018-04-14 15:45:03 · 252 阅读 · 0 评论 -
【Udacity】3,4,8,标尺与多直方图
建立多个直方图,而直方图的Y轴标尺不同自由标尺 利用R库中的diamonds数据,建立一个价格的直方图,根据不同的切割方式分为不同的直方图,且每个直方图的Y轴标尺不同。library (ggplot2)data("diamonds")qplot(x=price,data=diamonds,binwidth=30)+ scale_x_continuous(breaks = seq(...原创 2018-04-03 19:20:26 · 240 阅读 · 0 评论 -
【Udacity】3,7,6,第三个定性变量利用比率思考问题
一、利用比率思考问题 比如回答,女性好友数量是男性好友数量的多少倍 二、将长格式数据转换为宽格式数据 使用 R 进行的数据整理 宽格式和长格式之间的转换 融合数据框> pf.fc_by_age_gender1 <- pf%>%+ filter(!is.na(gender))%>%+ group_by(age,gender)%>%...原创 2018-04-09 20:48:36 · 148 阅读 · 0 评论 -
加入第三个变量后的条件均值
一、加入第三个变量后的条件均值 pf.fc_by_age_gender <- pf%>% filter(!is.na(gender))%>% group_by(age,gender)%>% summarise(mean_friend_count=mean(friend_count), median_friend_count = ...原创 2018-04-09 19:48:25 · 375 阅读 · 0 评论 -
suppressMessages的应用
使用suppressMessages运行的时候不显示提示信息> library('dplyr')�����̼�������dplyr��The following objects are masked from ��package:stats��: filter, lagThe following objects are masked from ��packag...原创 2018-04-09 19:42:15 · 5104 阅读 · 0 评论 -
R-导入数据
一、read.csvpf <- read.csv('pseudo_facebook.tsv',sep = '\t')二、read.delimpf <- read.delim('/datasets/ud651/pseudo_facebook.tsv')原创 2018-04-09 19:28:50 · 177 阅读 · 0 评论 -
散点图矩阵
> install.packages('GGally')> library(GGally)> theme_set(theme_minimal(20)) #设置主题> set.seed(1836)> pf_subset <- pf[,c(2,15)]> names(pf_subset)[1] "age" "www...原创 2018-04-14 19:43:07 · 10176 阅读 · 0 评论 -
酸奶数据
贝叶斯统计学与营销 消费者需求的面板数据离散选择模型> getwd()[1] "C:/Users/Administrator/Documents"> setwd('C:/Users/Administrator/Downloads')> yo <- read.csv('yogurt.csv')> str('yo') chr "yo"> str...原创 2018-04-14 18:46:02 · 648 阅读 · 0 评论 -
申请好友数
理解偏差-方差折衷(Bias-Variance Tradeof)> pf$year_joined <- floor(2014-pf$tenure/365)> pf$year_joined.bucket <- cut(pf$year_joined,+ c(2004,2009,2011,2012,2014))&...原创 2018-04-14 16:20:44 · 177 阅读 · 0 评论 -
数据可视化-Tableau-层级
层级 试着操作下:新建一个工作表,将 Order Date 拖到 Columns 上,将 Profit 拖到 Rows 上。 你应该能看到一个折线图,这是 Tableau 的默认时间数据图表。Order Date 药丸上现在有一个小的加号,点击该加号,看看会发生什么。 刚才的操作是细分层级,从年份数据开始,然后按季度分组。Tableau 自动按日期和时间日期字段创建时间期限层级。当你继续细...原创 2018-05-06 15:27:24 · 2939 阅读 · 0 评论