Data Science
文章平均质量分 83
我要养只哈士奇
二次元死肥宅
展开
-
R for Data Science总结之——modelr(1)
R for Data Science总结之——modelr(1)数学模型是用来提供一个数据集的低维总结性描述,通常而言,R语言内置的线性模型lm()函数已经可以用来描绘绝大多数数学模型,这一章简要介绍数学模型机理和其作用。library(tidyverse)library(modelr)options(na.action = na.warn)最简单的例子ggplot(sim1, a...原创 2018-10-02 11:26:38 · 2267 阅读 · 0 评论 -
R for Data Science总结之——Dates and times
R for Data Science总结之——Dates and times本章介绍lubridate包,可以方便处理日期相关数据分析工作:library(tidyverse)library(lubridate)library(nycflights13)在R中有三种日期时间相关的数据类型:datetimedate-time对于times,可使用hms包today()#...原创 2018-11-29 16:37:55 · 478 阅读 · 0 评论 -
R for Data Science总结之——Strings
R for Data Science之——Strings这一章关注R中字符串和正则表达式的处理:library(tidyverse)library(stringr)在R中,字符串是用""或’'括起来表示的:string1 <- "This is a string"string2 &am原创 2018-11-24 15:41:50 · 365 阅读 · 0 评论 -
R for Data Science总结之——Vectors
R for Data Science之——Vectors对于整个tidyverse框架而言,最重要的莫过于其数据结构tibble,而tibble得基础,也就是vector,向量。library(tidyverse)vector包括两类:Atomic vectors:logical, numeric(integer, double), character, complex, rawli...原创 2018-11-22 11:35:11 · 1538 阅读 · 0 评论 -
R for Data Science总结之——Iteration
R for Data Science之——Iteration不想多说了,直接上代码library(tidyverse)df <- tibble( a = rnorm(10), b = rnorm(10), c = rnorm(10), d = rnorm(10))median(df$a)#> [1] -0.246median(df$b)#> [1]...原创 2018-11-21 18:56:06 · 525 阅读 · 0 评论 -
R for Data Science总结之——Tidy Data
R for Data Science总结之——Tidy Data在R中进行数据挖掘要求数据集具有tidy data的特征,这有点类似数据库中的范式结构:每一个变量都有自己独立的一列每一个观测值都有自己独立的一行每一个数据都是独立的单元格这里我们会用到tidyr包来处理每一个数据集使其拥有tidy data的特征,其包含在tidyverse框架中:library(tidyverse...原创 2018-10-08 15:56:03 · 3094 阅读 · 0 评论 -
R for Data Science总结之——readr
R for Data Science总结之——readrreadr包顾名思义就是将数据导入R环境的方法,我们这里直接使用tidyverse框架,其中包含了readr包:library(tidyverse)主要方法有:分隔符读入:read_csv(), read_csv2(), read_tsv(), read_delim()空格分隔读入:read_fwf(), read_table(...原创 2018-10-07 11:25:12 · 4325 阅读 · 0 评论 -
R for Data Science总结之——Parse functions
R for Data Science总结之——Parse functions就数据类型转换而言,R内置的as.factor()等系列方法已经可用,但tidyverse框架中给了另一套parse函数,较老函数而言更整洁,更明确...原创 2018-10-07 11:01:44 · 2096 阅读 · 0 评论 -
R for Data Science总结之——Relational data
R for Data Science之——Relational data很多时候我们处理的不是单一数据集而是互相关联的相关数据集,他们之间以主键外键等想连接,我们需要将他们整合成一个完整数据集进行分析:library(tidyverse)library(nycflights13)airlines#> # A tibble: 16 x 2#> carrier name ...原创 2018-10-13 09:45:59 · 885 阅读 · 0 评论 -
R for Data Science总结之——tibble
R中传统的data.frame是很老的数据结构,而在新的tidyverse框架中提出了新的tibble来替代一些老的行为模式:library(tidyverse)将老式数据框转换成tibble:as_tibble(iris)#> # A tibble: 150 x 5#> Sepal.Length Sepal.Width Petal.Length Petal.Width...原创 2018-10-05 15:06:28 · 9590 阅读 · 0 评论 -
R for Data Science总结之——dplyr
R for Data Science总结之——dplyrdplyr是R语言中一个非常流行地应用于数据处理的包,其功能包含普通SQL语言的增删改查以及统筹计算等,本文测试数据集用的是nycflights13::flights, 加载代码为:library(dplyr)library(nycflights13)这里也建议直接使用Hadley Wickham的一套数据处理包tidyverse,...原创 2018-09-22 10:49:16 · 2008 阅读 · 0 评论 -
R for Data Science总结之——探索性数据分析
R for Data Science总结之——探索性数据分析通常来说,探索性数据分析分为以下三步:对数据集提出问题通过数据可视化,数据处理以及数据建模寻找答案解决问题或提出新的问题首先载入包:install.packages("tidyverse")查看数据:ggplot(data = diamonds) + geom_bar(mapping = aes(x = cut)...原创 2018-09-27 11:00:30 · 745 阅读 · 0 评论 -
R for Data Science总结之——modelr(3)
R for Data Science总结之——modelr(3)这一章中我们将对大型数据集进行分组建模,深入挖掘数据集特征:library(modelr)library(tidyverse)library(gapminder)gapminder#> # A tibble: 1,704 x 6#> country continent year lifeExp ...原创 2018-10-04 10:26:08 · 654 阅读 · 0 评论 -
R for Data Science总结之——ggplot2
R for Data Science总结之——ggplot2欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchar...原创 2018-09-21 11:31:00 · 672 阅读 · 0 评论 -
R for Data Science总结之——modelr(2)
R for Data Science总结之——modelr(2)本章针对真实数据集进行建模实践:library(tidyverse)library(modelr)options(na.action = na.warn)library(nycflights13)library(lubridate)为什么低质量的钻石更加昂贵?首先查看diamonds数据集:ggplot(diam...原创 2018-10-02 17:14:10 · 762 阅读 · 0 评论 -
R for Data Science总结之——Factors
R for Data Science总结之——Factorsfactor类型在R中用于处理分类变量,这里我们使用forcats包,也就是for categorical variables:library(tidyverse)library(forcats)定义factor:x1 <- c("Dec", "Apr", "Jan", "Mar原创 2018-11-28 16:50:31 · 1253 阅读 · 0 评论