2018年04月_木南花

原创【项目二】探索性分析

项目概述在此项目中，你将使用 R 并运用探索性数据分析来探索一个变量或多个变量之间的关系，以及在一个选定的数据集中探索分布、异常值和反常现象。为什么进行这个项目？探索性数据分析（EDA）是在应用正式的、严格的统计分析之前，对数据的特征和关系的进行数字的和图表的测试。 EDA可以引起人们的洞察力，可以反映其他问题，并最终形成预测模型。这是对不良数据的一个重要的“防线”，也是一个可以...

2018-04-22 15:04:06 513

原创钻石与价格预测

1、price和carat的散点图library(ggplot2)data('diamonds')ggplot(aes(x=carat,y=price),data=diamonds)+ geom_point()+ xlim(0,quantile(diamonds$carat,0.99))+ ylim(0,quantile(diamonds$price,0.99)) 注...

2018-04-21 20:15:12 4228

练习: 经过分组、分面和填色的价格/克拉 Create a scatter plot of the price/carat ratio of diamonds. The variable x should be assigned to cut. The points should be colored by diamond color, and the plot should be facete...

2018-04-21 12:02:10 1219

原创 Prop_initiated与使用时长的图

目的： Create a line graph of the median proportion of friendships initiated (‘prop_initiated’) vs.tenureand color the line segment by year_joined.bucket.图片类似以下： > pf$year_joined <- floor(2014-...

2018-04-21 11:20:15 149

原创价格和体积和钻石净度

1、所有数据的价格和体积和钻石净度–使用边框颜色> diamonds$volumn <- diamonds$x*diamonds$y*diamonds$z> ggplot(aes(x=volumn,y=log10(price),color=clarity),data=diamonds)++ geom_point() 2、所有数据的价格和体积和钻石净度–使用填...

2018-04-21 10:50:09 294

原创带封面

1、价格的直方图，以颜色划分，以cut填充颜色library(ggplot2)data("diamonds")ggplot(aes(x=log(price),fill=cut),data=diamonds)+ facet_wrap(~color)+ geom_histogram()注意color和fill的区别，color是边框，fill是填充色> ggp...

2018-04-19 20:28:52 133

原创【报错】Python中选取单列或者多列

选取单列1、以下报错出现是因为字段错误，这里的司机ID是不在报表内周故意明细 = 周报['ID']Traceback (most recent call last): File "<ipython-input-14-c23e3b5f93d6>", line 1, in <module> 周故意明细 = 周报['ID'] File "C:\Pro...

2018-04-19 18:36:19 14135 1

原创散点图矩阵

> install.packages('GGally')> library(GGally)> theme_set(theme_minimal(20)) #设置主题> set.seed(1836)> pf_subset <- pf[,c(2,15)]> names(pf_subset)[1] "age" "www...

2018-04-14 19:43:07 10209

原创酸奶数据

贝叶斯统计学与营销消费者需求的面板数据离散选择模型> getwd()[1] "C:/Users/Administrator/Documents"> setwd('C:/Users/Administrator/Downloads')> yo <- read.csv('yogurt.csv')> str('yo') chr "yo"> str...

2018-04-14 18:46:02 656

原创申请好友数

理解偏差-方差折衷（Bias-Variance Tradeof）> pf$year_joined <- floor(2014-pf$tenure/365)> pf$year_joined.bucket <- cut(pf$year_joined,+ c(2004,2009,2011,2012,2014))&...

2018-04-14 16:20:44 183

原创计算好友率

注意车里with函数的使用> with(subset(pf,tenure >= 1),summary(friend_count/tenure)) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0000 0.0775 0.2205 0.6096 0.5658 417.0000 > wit...

2018-04-14 15:45:03 280

原创切割变量

Cut 函数一、将某一变量按照固定的分组进行切割pf$year_joined.bucket <- cut(pf$year_joined, c(2004,2009,2001,2012,2014))

2018-04-11 19:29:59 567

原创函数

floor() 函数向下舍入到最近的整数。 ceiling() 函数向上舍入到最近的整数。

2018-04-11 19:14:51 103

原创【Udacity】3,7,6，第三个定性变量利用比率思考问题

一、利用比率思考问题比如回答，女性好友数量是男性好友数量的多少倍二、将长格式数据转换为宽格式数据使用 R 进行的数据整理宽格式和长格式之间的转换融合数据框> pf.fc_by_age_gender1 <- pf%>%+ filter(!is.na(gender))%>%+ group_by(age,gender)%>%...

2018-04-09 20:48:36 154

原创加入第三个变量后的条件均值

一、加入第三个变量后的条件均值  pf.fc_by_age_gender <- pf%>% filter(!is.na(gender))%>% group_by(age,gender)%>% summarise(mean_friend_count=mean(friend_count), median_friend_count = ...

2018-04-09 19:48:25 407

原创 suppressMessages的应用

使用suppressMessages运行的时候不显示提示信息> library('dplyr')��̼��dplyr��The following objects are masked from ��package:stats��: filter, lagThe following objects are masked from ��packag...

2018-04-09 19:42:15 5164

原创 R-导入数据

一、read.csvpf <- read.csv('pseudo_facebook.tsv',sep = '\t')二、read.delimpf <- read.delim('/datasets/ud651/pseudo_facebook.tsv')

2018-04-09 19:28:50 186

原创【报错】Error: stat_bin() must not be used with a y aesthetic.

在进行ggplot绘图的过程中，出现了“Error: stat_bin() must not be used with a y aesthetic.”的报错。代码具体如下：> ggplot(aes(x = gender, y = age),+ data = subset(pf, !is.na(gender))) + geom_histogram()Error: st...

2018-04-08 20:46:23 8287

原创【Udacity】3,7,3，第三个定性变量

一、导入数据library(ggplot2)getwd()pf <- read.csv('pseudo_facebook.tsv',sep = '\t')二、按照性别绘制年龄的箱型图ggplot(aes(x = gender, y = age), data = subset(pf, !is.na(gender))) + geom_boxplot() 三...

2018-04-08 20:32:49 192

原创正则表达式

用正则表达式从文本中提取想要的内容twitter_archive_enhanced_clean.name = twitter_archive_enhanced_clean.text.str.extract('(?:This is|Meet|name is|Say hello to|named) ([A-Z][a-z]{2,12})', expand=False)...

2018-04-07 14:45:44 152

原创 pandas.replace

twitter_archive_enhanced_clean['dog_status'] = twitter_archive_enhanced_clean['dog_status'].replace('none','no_status')

2018-04-07 14:42:35 558

原创针对同一列不同的行直接复制

twitter_archive_enhanced_clean['dog_status'][1596,1198,1289,1574,1483,1152,1341,1568,1856,1845] = 'multiple'

2018-04-07 14:35:57 394

原创如何将几列合并为一列

使用+将不同的列合并在一起twitter_archive_enhanced_clean['d1'] = s.str.findall('doggo')twitter_archive_enhanced_clean['d2'] = s.str.findall('floofer')twitter_archive_enhanced_clean['d3'] = s.str.findall('puppe...

2018-04-07 14:34:59 1468

原创如何展示全部文档

当df中存在过长的问题当，在pandas中查询无法全部展示是，可尝试一下代码进行尝试pd.set_option('max_colwidth', 400)print(twitter_archive_enhanced_clean[1979:1982]['text'])1979 This is Stuart. He's sporting his favorite fanny pac...

2018-04-07 13:41:45 166

原创 python之数据类型转换

使用astype进行数据类型转换将电话号码转换成文本型df['tel'] = df['tel'].astype(str) int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) 将x转换到一个浮点数 complex(real [,i...

2018-04-07 13:30:40 3841

原创 pandas.findall--文本查找方法

pandas.Series.str.findallSeries.str.findall(pat, flags=0, **kwargs)[source]Parameters: pat : string（Pattern or regular expression） flags : int, default 0 (no flags) re module flags, e.g. re.IG...

2018-04-07 13:28:18 3695 2

原创关min和max函数使用的注意事项

min(twitter_archive_master.scale) 和 max(twitter_archive_master.scale) 这样的用法，不会跳过 nan 值，最终返回的最大值和最小值都是 nan，bins 中的值不能有重复的，现在有两个 nan 就会报错了。使用 twitter_archive_master.scale.min() 和 twitter_archive_maste...

2018-04-07 12:32:22 1001 1

原创【Udacity】3,5,19，噪声散点图

1、噪声散点图install.packages('alr3')library(alr3)data("Mitchell")?Mitchell> ggplot(aes(x=Month,y=Temp),data=Mitchell)++ geom_point() 2、理解数据似乎这两个变量并不相关，但是X轴是月份，是一个相对离散的变量，且月份是按照1-12一...

2018-04-06 18:25:13 359

原创【Udacity】3,5,12，相关性

1、相关性相关性图解指南：相关系数推论统计学入门-相关系数相关系数除了用字母 r 表示以外，通常还用希腊字母 ρ 表示。计算相关系数的默认方法是 Pearson，大多数统计软件都是如此。你无需在计算 Pearson 积差相关时传递方法参数。> cor.test(pf$age,pf$friend_count,method = "pearson") Pe...

2018-04-06 16:43:31 267

原创【Udacity】3,5,10，将摘要与原始数据叠加

目的：将原始的age和friend_count的散点图和摘要绘制的图形放在一起1、更改原始数据的绘图颜色，以便在合并后仍然可以看清导入数据getwd()library('ggplot2')pf <- read.csv('pseudo_facebook.tsv',sep = '\t')更改颜色ggplot(aes(x=age,y=friend_count),data=...

2018-04-06 15:07:03 781 1

原创【Udacity】3,5,9，条件均值

我们在研究两个变量的关系是，散点图往往不能够准确的反应两者的关系，当我们想要研究收入随着年龄增长的变化，我们需要观察收入的平均数和中位数随着年龄变化的情况，而在R中，我们需要D Plyr的R软件包 D Plyr包 D Plyr简介以下教程由 Hadley Wickham 于 2014 年在 useR 公布。 D Plyr简介 D Plyr教程（第一部分） D Plyr教程（第二部分 ...

2018-04-05 21:22:42 508

原创【Udacity】3,5,3，散点图

最好使用散点图来研究两个连续变量之间的关系。当我们像X和Y传递两个连续变量时，qplot自动选择散点图 1、qplot绘制散点图getwd()library('ggplot2')pf <- read.csv('pseudo_facebook.tsv',sep = '\t')#也可以用下面的代码导入数据--read.delim('pseudo_facebook.tsv')l...

2018-04-05 20:13:03 129

原创 Gapminder 数据

数据选择：从以下数据中选择任意一个数据集 Gapminder 数据目的：选择数据集后从制作2-5个plots 使用 ggsave() 保存图形对于一些 Gapminder 数据集，在转换为 csv 格式后，以下命令可能会很有用： read.csv(‘data.csv’, header = T, row.names = 1, check.names = F) 如果你想对调数据框中的行和...

2018-04-05 14:27:29 4260

原创用R进行数据整理

数据加工或数据整理占用数据科学家或数据分析员大量的时间，而 tidyr 和 dplyr 两种 R 包可使 R 中的这些任务更加简单。tidyr - 用于重塑数据布局的包dplyr - 用于帮助转换整洁的表格数据的包查看 R 语言内的数据整理，了解这些包如何能使你操纵数据。你可以使用这些包来帮助你完成下一个编程任务和未来的调查。你可能还需要下载这张有用的数据整理速查表。RStudio...

2018-04-03 21:14:40 1580

原创 R-table函数

一、R的diamonds数据中，选择数量大于2000的克拉数> table(diamonds$carat)[table(diamonds$carat)>2000] 0.3 0.31 1.01 2604 2249 2242

2018-04-03 21:03:24 4193

原创【Udacity】3,4,8，标尺与多直方图

建立多个直方图，而直方图的Y轴标尺不同自由标尺利用R库中的diamonds数据，建立一个价格的直方图，根据不同的切割方式分为不同的直方图，且每个直方图的Y轴标尺不同。library (ggplot2)data("diamonds")qplot(x=price,data=diamonds,binwidth=30)+ scale_x_continuous(breaks = seq(...

2018-04-03 19:20:26 264

原创【Udacity】3,3,28，符合逻辑

1、统计值> summary(pf$mobile_likes) Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 4.0 106.1 46.0 25111.0 2、说明mobile_likes存在很多的0,可以尝试执行summary(pf$mobile_likes>0)代码，我们会...

2018-04-01 19:17:11 182

原创【Udacity】3,3,26，箱型图

绘制箱型图，通常将连续变量作为Y轴，分类或者类别变量作为X轴如何读懂并使用箱型图四分位间距或者IQR 可视化描述统计分析：匹配箱型图 1、绘制箱型图qplot(x=gender,y=friend_count, data = subset(pf,!is.na(gender)), geom='boxplot') 注： - 箱型图很容易对比两个类...

2018-04-01 18:55:59 260

原创【Udacity】3,3,3，频率多边形

频数多边形用来比较分布，优势就是比较两个或者多个分布问题：男性和女性那个平均好友更多 1、friend_count分布直方图qplot(x=friend_count,data = subset(pf,!is.na(gender)),binwidth=10)+ scale_x_continuous(lim=c(0,1000),breaks = seq(0,1000,50)) ...

2018-04-01 16:47:53 940

原创【Udacity】3,3,22，转换数据

我们碰到的很多数据变量中都存在很长的尾巴，有一些数据会出现高于中位数很多倍的数据，这种数据我们称之为数据过离散。通常需要对这些数据进行变换，才能看到标准偏差或者量级，实际上我们在缩短尾巴。 1、先看看我们最初的图形qplot(x=friend_count,data=pf) 我们可以通过取对数来变换此变量，使用自然对数。以2为底的对数或者以10 为底的对数。我们可以使用平方根，这样可...

2018-04-01 16:09:24 201

空空如也

空空如也