自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 【项目二】探索性分析

项目概述在此项目中,你将使用 R 并运用探索性数据分析来探索一个变量或多个变量之间的关系,以及在一个选定的数据集中探索分布、异常值和反常现象。为什么进行这个项目?探索性数据分析(EDA)是在应用正式的、严格的统计分析之前,对数据的特征和关系的进行数字的和图表的测试。 EDA可以引起人们的洞察力,可以反映其他问题,并最终形成预测模型。这是对不良数据的一个重要的“防线”,也是一个可以...

2018-04-22 15:04:06 513

原创 钻石与价格预测

1、price和carat的散点图library(ggplot2)data('diamonds')ggplot(aes(x=carat,y=price),data=diamonds)+ geom_point()+ xlim(0,quantile(diamonds$carat,0.99))+ ylim(0,quantile(diamonds$price,0.99)) 注...

2018-04-21 20:15:12 4228

原创 diamond数据集经过分组、分面和填色的价格/克拉

练习: 经过分组、分面和填色的价格/克拉 Create a scatter plot of the price/carat ratio of diamonds. The variable x should be assigned to cut. The points should be colored by diamond color, and the plot should be facete...

2018-04-21 12:02:10 1219

原创 Prop_initiated与使用时长的图

目的: Create a line graph of the median proportion of friendships initiated (‘prop_initiated’) vs.tenureand color the line segment by year_joined.bucket.图片类似以下: > pf$year_joined <- floor(2014-...

2018-04-21 11:20:15 149

原创 价格和体积和钻石净度

1、所有数据的价格和体积和钻石净度–使用边框颜色> diamonds$volumn <- diamonds$x*diamonds$y*diamonds$z> ggplot(aes(x=volumn,y=log10(price),color=clarity),data=diamonds)++ geom_point() 2、所有数据的价格和体积和钻石净度–使用填...

2018-04-21 10:50:09 294

原创 带封面

1、价格的直方图,以颜色划分,以cut填充颜色library(ggplot2)data("diamonds")ggplot(aes(x=log(price),fill=cut),data=diamonds)+ facet_wrap(~color)+ geom_histogram()注意color和fill的区别,color是边框,fill是填充色> ggp...

2018-04-19 20:28:52 133

原创 【报错】Python中选取单列或者多列

选取单列1、以下报错出现是因为字段错误,这里的司机ID是不在报表内周故意明细 = 周报['ID']Traceback (most recent call last): File "<ipython-input-14-c23e3b5f93d6>", line 1, in <module> 周故意明细 = 周报['ID'] File "C:\Pro...

2018-04-19 18:36:19 14135 1

原创 散点图矩阵

> install.packages('GGally')> library(GGally)> theme_set(theme_minimal(20)) #设置主题> set.seed(1836)> pf_subset <- pf[,c(2,15)]> names(pf_subset)[1] "age" "www...

2018-04-14 19:43:07 10209

原创 酸奶数据

贝叶斯统计学与营销 消费者需求的面板数据离散选择模型> getwd()[1] "C:/Users/Administrator/Documents"> setwd('C:/Users/Administrator/Downloads')> yo <- read.csv('yogurt.csv')> str('yo') chr "yo"> str...

2018-04-14 18:46:02 656

原创 申请好友数

理解偏差-方差折衷(Bias-Variance Tradeof)> pf$year_joined <- floor(2014-pf$tenure/365)> pf$year_joined.bucket <- cut(pf$year_joined,+ c(2004,2009,2011,2012,2014))&...

2018-04-14 16:20:44 183

原创 计算好友率

注意车里with函数的使用> with(subset(pf,tenure >= 1),summary(friend_count/tenure)) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0000 0.0775 0.2205 0.6096 0.5658 417.0000 > wit...

2018-04-14 15:45:03 280

原创 切割变量

Cut 函数 一、将某一变量按照固定的分组进行切割pf$year_joined.bucket <- cut(pf$year_joined, c(2004,2009,2001,2012,2014))

2018-04-11 19:29:59 567

原创 函数

floor() 函数向下舍入到最近的整数。 ceiling() 函数向上舍入到最近的整数。

2018-04-11 19:14:51 103

原创 【Udacity】3,7,6,第三个定性变量利用比率思考问题

一、利用比率思考问题 比如回答,女性好友数量是男性好友数量的多少倍 二、将长格式数据转换为宽格式数据 使用 R 进行的数据整理 宽格式和长格式之间的转换 融合数据框> pf.fc_by_age_gender1 <- pf%>%+ filter(!is.na(gender))%>%+ group_by(age,gender)%>%...

2018-04-09 20:48:36 154

原创 加入第三个变量后的条件均值

一、加入第三个变量后的条件均值

pf.fc_by_age_gender <- pf%>% filter(!is.na(gender))%>% group_by(age,gender)%>% summarise(mean_friend_count=mean(friend_count), median_friend_count = ...

2018-04-09 19:48:25 407

原创 suppressMessages的应用

使用suppressMessages运行的时候不显示提示信息> library('dplyr')�����̼�������dplyr��The following objects are masked from ��package:stats��: filter, lagThe following objects are masked from ��packag...

2018-04-09 19:42:15 5164

原创 R-导入数据

一、read.csvpf <- read.csv('pseudo_facebook.tsv',sep = '\t')二、read.delimpf <- read.delim('/datasets/ud651/pseudo_facebook.tsv')

2018-04-09 19:28:50 186

原创 【报错】Error: stat_bin() must not be used with a y aesthetic.

在进行ggplot绘图的过程中,出现了“Error: stat_bin() must not be used with a y aesthetic.”的报错。 代码具体如下:> ggplot(aes(x = gender, y = age),+ data = subset(pf, !is.na(gender))) + geom_histogram()Error: st...

2018-04-08 20:46:23 8287

原创 【Udacity】3,7,3,第三个定性变量

一、导入数据library(ggplot2)getwd()pf <- read.csv('pseudo_facebook.tsv',sep = '\t')二、按照性别绘制年龄的箱型图ggplot(aes(x = gender, y = age), data = subset(pf, !is.na(gender))) + geom_boxplot() 三...

2018-04-08 20:32:49 192

原创 正则表达式

用正则表达式从文本中提取想要的内容twitter_archive_enhanced_clean.name = twitter_archive_enhanced_clean.text.str.extract('(?:This is|Meet|name is|Say hello to|named) ([A-Z][a-z]{2,12})', expand=False)...

2018-04-07 14:45:44 152

原创 pandas.replace

twitter_archive_enhanced_clean['dog_status'] = twitter_archive_enhanced_clean['dog_status'].replace('none','no_status')

2018-04-07 14:42:35 558

原创 针对同一列不同的行直接复制

twitter_archive_enhanced_clean['dog_status'][1596,1198,1289,1574,1483,1152,1341,1568,1856,1845] = 'multiple'

2018-04-07 14:35:57 394

原创 如何将几列合并为一列

使用+将不同的列合并在一起twitter_archive_enhanced_clean['d1'] = s.str.findall('doggo')twitter_archive_enhanced_clean['d2'] = s.str.findall('floofer')twitter_archive_enhanced_clean['d3'] = s.str.findall('puppe...

2018-04-07 14:34:59 1468

原创 如何展示全部文档

当df中存在过长的问题当,在pandas中查询无法全部展示是,可尝试一下代码进行尝试pd.set_option('max_colwidth', 400)print(twitter_archive_enhanced_clean[1979:1982]['text'])1979 This is Stuart. He's sporting his favorite fanny pac...

2018-04-07 13:41:45 166

原创 python之数据类型转换

使用astype进行数据类型转换 将电话号码转换成文本型df['tel'] = df['tel'].astype(str) int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) 将x转换到一个浮点数 complex(real [,i...

2018-04-07 13:30:40 3841

原创 pandas.findall--文本查找方法

pandas.Series.str.findallSeries.str.findall(pat, flags=0, **kwargs)[source]Parameters: pat : string(Pattern or regular expression) flags : int, default 0 (no flags) re module flags, e.g. re.IG...

2018-04-07 13:28:18 3695 2

原创 关min和max函数使用的注意事项

min(twitter_archive_master.scale) 和 max(twitter_archive_master.scale) 这样的用法,不会跳过 nan 值,最终返回的最大值和最小值都是 nan,bins 中的值不能有重复的,现在有两个 nan 就会报错了。 使用 twitter_archive_master.scale.min() 和 twitter_archive_maste...

2018-04-07 12:32:22 1001 1

原创 【Udacity】3,5,19,噪声散点图

1、噪声散点图install.packages('alr3')library(alr3)data("Mitchell")?Mitchell> ggplot(aes(x=Month,y=Temp),data=Mitchell)++ geom_point() 2、理解数据 似乎这两个变量并不相关,但是X轴是月份,是一个相对离散的变量,且月份是按照1-12一...

2018-04-06 18:25:13 359

原创 【Udacity】3,5,12,相关性

1、相关性 相关性图解指南: 相关系数 推论统计学入门-相关系数 相关系数除了用字母 r 表示以外,通常还用希腊字母 ρ 表示。 计算相关系数的默认方法是 Pearson,大多数统计软件都是如此。你无需在计算 Pearson 积差相关时传递方法参数。> cor.test(pf$age,pf$friend_count,method = "pearson") Pe...

2018-04-06 16:43:31 267

原创 【Udacity】3,5,10,将摘要与原始数据叠加

目的:将原始的age和friend_count的散点图和摘要绘制的图形放在一起1、更改原始数据的绘图颜色,以便在合并后仍然可以看清 导入数据getwd()library('ggplot2')pf <- read.csv('pseudo_facebook.tsv',sep = '\t')更改颜色ggplot(aes(x=age,y=friend_count),data=...

2018-04-06 15:07:03 781 1

原创 【Udacity】3,5,9,条件均值

我们在研究两个变量的关系是,散点图往往不能够准确的反应两者的关系,当我们想要研究收入随着年龄增长的变化,我们需要观察收入的平均数和中位数随着年龄变化的情况,而在R中,我们需要D Plyr的R软件包 D Plyr包 D Plyr简介 以下教程由 Hadley Wickham 于 2014 年在 useR 公布。 D Plyr简介 D Plyr教程(第一部分) D Plyr教程(第二部分 ...

2018-04-05 21:22:42 508

原创 【Udacity】3,5,3,散点图

最好使用散点图来研究两个连续变量之间的关系。 当我们像X和Y传递两个连续变量时,qplot自动选择散点图 1、qplot绘制散点图getwd()library('ggplot2')pf <- read.csv('pseudo_facebook.tsv',sep = '\t')#也可以用下面的代码导入数据--read.delim('pseudo_facebook.tsv')l...

2018-04-05 20:13:03 129

原创 Gapminder 数据

数据选择:从以下数据中选择任意一个数据集 Gapminder 数据 目的:选择数据集后从制作2-5个plots 使用 ggsave() 保存图形 对于一些 Gapminder 数据集,在转换为 csv 格式后,以下命令可能会很有用: read.csv(‘data.csv’, header = T, row.names = 1, check.names = F) 如果你想对调数据框中的行和...

2018-04-05 14:27:29 4260

原创 用R进行数据整理

数据加工或数据整理占用数据科学家或数据分析员大量的时间,而 tidyr 和 dplyr 两种 R 包可使 R 中的这些任务更加简单。tidyr - 用于重塑数据布局的包dplyr - 用于帮助转换整洁的表格数据的包查看 R 语言内的数据整理,了解这些包如何能使你操纵数据。你可以使用这些包来帮助你完成下一个编程任务和未来的调查。你可能还需要下载这张有用的数据整理速查表。RStudio...

2018-04-03 21:14:40 1580

原创 R-table函数

一、R的diamonds数据中,选择数量大于2000的克拉数> table(diamonds$carat)[table(diamonds$carat)>2000] 0.3 0.31 1.01 2604 2249 2242

2018-04-03 21:03:24 4193

原创 【Udacity】3,4,8,标尺与多直方图

建立多个直方图,而直方图的Y轴标尺不同自由标尺 利用R库中的diamonds数据,建立一个价格的直方图,根据不同的切割方式分为不同的直方图,且每个直方图的Y轴标尺不同。library (ggplot2)data("diamonds")qplot(x=price,data=diamonds,binwidth=30)+ scale_x_continuous(breaks = seq(...

2018-04-03 19:20:26 264

原创 【Udacity】3,3,28,符合逻辑

1、统计值> summary(pf$mobile_likes) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 4.0 106.1 46.0 25111.0 2、说明mobile_likes存在很多的0,可以尝试执行summary(pf$mobile_likes>0)代码,我们会...

2018-04-01 19:17:11 182

原创 【Udacity】3,3,26,箱型图

绘制箱型图,通常将连续变量作为Y轴,分类或者类别变量作为X轴 如何读懂并使用箱型图 四分位间距或者IQR 可视化 描述统计分析:匹配箱型图 1、绘制箱型图qplot(x=gender,y=friend_count, data = subset(pf,!is.na(gender)), geom='boxplot') 注: - 箱型图很容易对比两个类...

2018-04-01 18:55:59 260

原创 【Udacity】3,3,3,频率多边形

频数多边形用来比较分布,优势就是比较两个或者多个分布 问题:男性和女性那个平均好友更多 1、friend_count分布直方图qplot(x=friend_count,data = subset(pf,!is.na(gender)),binwidth=10)+ scale_x_continuous(lim=c(0,1000),breaks = seq(0,1000,50)) ...

2018-04-01 16:47:53 940

原创 【Udacity】3,3,22,转换数据

我们碰到的很多数据变量中都存在很长的尾巴,有一些数据会出现高于中位数很多倍的数据,这种数据我们称之为数据过离散。通常需要对这些数据进行变换,才能看到标准偏差或者量级,实际上我们在缩短尾巴。 1、先看看我们最初的图形qplot(x=friend_count,data=pf) 我们可以通过取对数来变换此变量,使用自然对数。以2为底的对数或者以10 为底的对数。 我们可以使用平方根,这样可...

2018-04-01 16:09:24 201

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除