R语言
笔记
卖山楂啦prss
数据分析师——唯有知识,让我们免于平庸
展开
-
R语言读取excel数据
安装库install.packages("readxl")调用library(readxl)read_excel(path, sheet = NULL, range = NULL, col_names = TRUE, col_types = NULL, na = "", trim_ws = TRUE, skip = 0, n_max = Inf, guess_max = min...原创 2020-04-28 16:32:13 · 17808 阅读 · 0 评论 -
聚类分析
聚类分析简介1.基本思想聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标(变量)之间存在着程度不同的相似性(亲疏关系),于是可根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密...原创 2020-04-01 18:23:25 · 2243 阅读 · 1 评论 -
使用purr实现迭代
笔记参考:《R数据科学》使用purr实现迭代简介减少重复代码的另一种工具是迭代,它的作用在于可以对多个输入执行同一种处理,比如对多个列或多个数据集进行同样的操作。两种重要的迭代方式:命令式编程和函数式编程1.准备工作purrr包是tidyverse的核心R包之一library(tidyverse)2.for循环df <- tibble(a = rnorm(10),...原创 2020-02-25 14:29:59 · 1082 阅读 · 0 评论 -
向量
笔记参考1.《R数据科学》2. 小洁详解《R数据科学》–第十五章 向量1.准备工作library(tidyverse)2.向量基础向量的类型主要有两种。原子向量——c(),其共有6种类型:逻辑型、整型、双精度型、字符型、复数型和原始型。整型和双精度型向量又统称为数值型向量。列表——list(),有时又称为递归向量,因为列表中也可以包含其他列表。原子向量与列表之间的主要...原创 2020-02-24 15:22:57 · 518 阅读 · 0 评论 -
R编写函数
笔记使用注意练习mean()函数中的trim参数的作用是什么?R语言:mean函数之trim参数trim的取值范围为0到0.5之间,表示在计算均值前需要去掉的异常值的比例。trim会在首尾分别去除N个异常值,其中N=样本数量要去除的百分比(即是trim的值)所以mean(a, 0.1)就会在a的首尾去除110.1=1个数据,因此mean(a, 0.1) = menu(c(2...原创 2020-02-23 15:14:04 · 423 阅读 · 0 评论 -
magrittr进行管道操作
内容为笔记参考1.《R数据科学》2.R语言中管道操作 %>%, %T>%, %$% 和 %%(转)使用magrittr进行管道操作1. 准备工作1ibrary(magrittr)2. 最常用的管道操作符:%>%管道操作的出发点是帮助你以清晰易懂的方式编写代码,减少中间变量。flights_dt %>% mutate(dep_hour=updat...原创 2020-02-22 22:15:17 · 242 阅读 · 0 评论 -
lubridate处理日期和时间
参考:《R数据科学》使用lubridate处理日期和时间1 简介在我们处理一些时间序列数据时,经常会碰到各种时间数据,比如“2016-03-03”。很多时候我们需要提取出其中的年、月、日甚至是小时、分、秒,从而可以方便的进行比较、筛选等操作。1.1 准备工作lubridate 包,它可以使得 R 对日期和时间的处理更加容易。library(tidyverse)library(lubr...原创 2020-02-22 19:17:08 · 2020 阅读 · 0 评论 -
forcats处理因子
forcats处理因子参考:1.《R数据科学》2.小洁详解《R数据科学》–第十一章 forcats处理因子因子在R中用于处理分类变量。分类变量是在固定的已知集合中取值的变量。forcats包提供了能够处理分类变量(其实就是因子的另一种说法)的工具,其中还包括了处理因子的大量辅助函数。1.准备工作library(tidyverse)library(forcats)2.创建因子x...原创 2020-02-21 15:14:23 · 911 阅读 · 0 评论 -
RCurl网络爬虫
RCurl网络爬虫RCurl这个程序包提供了由R到libcurl库的接口,从而实现HTTP的一些功能。例如,从服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等等。curl&&libcurlcurl:利用URL语法在命令行方式下工作的开源文件传输工具curl背后的库就是libcurl功能获得页面有关认证上传下载信息搜索必要的...原创 2020-02-18 14:25:51 · 673 阅读 · 0 评论 -
stringr处理字符串
第十章 使用stringr处理字符串重点正则表达式提要:1.准备工作library(tidyverse)library(stringr)2.字符串基础单引号和双引号没有区别转义符号\,对于反斜杠和引号需要转义。可是我这里发现了一个问题,理论上double_quote <- “”“应该是正确的双引号,然而并不是,用writeLines(”"")就对了。3.使用正则表达式进行...原创 2020-02-18 11:22:01 · 935 阅读 · 0 评论 -
readr数据的导入
第八章-使用readr进行数据的导入readr读取数据parse_*函数簇——解析数据(单个向量)——解析文件提要:1.readr函数中掌握read.csv逗号分隔,read.delim任意分隔2.readr函数中一些参数skip = n 跳过comment = “#” 忽略#开头col_names = FALSE 第一行不是列名col_names=c(“x”...原创 2020-02-16 22:09:00 · 2516 阅读 · 0 评论 -
tibble数据框
参考书籍:《R数据科学》tibble本质是数据框,一种简单的数据框用tibble()函数创建#加载tidyverse包library(tidyverse)1.转换为tibbleas_tibble(iris)# A tibble: 150 x 5# Sepal.Length Sepal.Width Petal.Length Petal.Width Species# &l...原创 2020-02-15 23:17:36 · 2648 阅读 · 0 评论 -
探索性数据分析
第五章探索性数据分析,结合了dplyr和ggplot21.简介提出问题→通过可视化,转换和建模来解决问题→优化并提出新问题2.提出问题变量自身会发生何种变动?变量之间会发生何种相关变动?术语:在tidydata(整洁的数据)中,行是观测,列是变量。变量:一种可测量的数量、质量或属性。值:变量在测量时的状态。变量值在每次测量之间可以发生改变。观测:或称个案,指在相同条件下进行的一...原创 2020-02-15 20:55:23 · 792 阅读 · 0 评论 -
dplyr处理关系数据
第9章 dplyr处理关系数据写在前面——plyr包 join()函数join(x = ,y = ,by=NULL,type="left",match="all")作用:联合两个数据框,和SQL中连接方式一样,包括内连接(inner-交集)和外连接(左连接left、右连接right、全连接full)参数:x,y 是两个数据框;by 是指定要联合的变量,默认值为所有的变量;typ...原创 2020-02-17 22:30:24 · 1274 阅读 · 0 评论 -
dplyr进行数据转换
filter()选择符合条件的行select()选择感兴趣的列(按名称)arrange()对行进行重新排序mutate()生成新列添加在数据集的最后summarize()进行分组摘要第一个参数是一个数据框。随后使用列名称(不带引号)进行相应操作输出结果是一个新数据框install.packages(nycflights13)#2013年从纽约市出发的所有336776次航班的信息...原创 2020-02-12 15:37:24 · 1224 阅读 · 0 评论 -
plyr包 (2)
辅助函数以函数作为输入,以新的函数作为输出(1)splat()函数作用:与使用众多的参数不同,该函数把原函数中多个参数打包为一个list作为参数,然后输出新的函数,也就是说本来某个函数需要输入多个参数,现在套上splat后,只要输入一个参数list就可以了,不需要单独地输入参数。它的作用结果是把一个函数变成一个新函数。优点:当你里想把数据框或者数组的一行的数据作为参数赋给一个函数时,用sp...原创 2020-02-10 16:07:21 · 323 阅读 · 0 评论 -
plyr包 (1)
plyr包plyr包针对的问题是:把一个庞大的数据结构拆分成多个片段,然后分别对这些片段应用函数,然后再把片段函数结构组合起来。动机是提供超越for循环和内置的apply函数族的一个一揽子解决方案。基本思想:Split-Apply-Combine——这种思想贯穿一个数据分析过程的始终优点:替代很多问题中复杂的循环(loops)从数据结构中的细节脱离出来可以减少多余的代码和突出计算...原创 2020-02-09 21:58:42 · 394 阅读 · 0 评论 -
ggThemeAssist:鼠标调整ggplot2主题,不用再记这些代码啦!
ggThemeAssist转载 2020-02-12 20:03:43 · 437 阅读 · 0 评论 -
ggplot2包 (4)
tidyverse的R包集合tidyverse包括ggplot2、tibble、readr、purrr和dplyr这些包被视为tidyverse的核心,因为几乎在所有的分析中都会用到它们。核心包有以下一些:ggplot2可视化数据dplyr数据操作语法,可以用它解决大部分数据处理问题tidyr清理数据readr读入表格数据purrr提供一个完整一...原创 2020-04-02 10:53:29 · 478 阅读 · 0 评论 -
ggplot2包 (3)
ggplot2ggplot2核心:数据、数据到图形属性的映射、数据无关的图形要素绘图分离。在ggplot2中,绘制的图形是由一个个图层添加上去的一张统计图形是从数据到几何对象(geometric object,缩写为geom,包括点、线、条形等)的图形属性(aesthetic attributes,缩写为aes,包括颜色、形状、大小等)的一个映射。此外,图形中还可能包含数据的统计变换(st...原创 2020-02-04 22:58:44 · 284 阅读 · 0 评论 -
ggplot2包 (2)
参考书籍:《ggplot2:数据分析与图形艺术》mpg(耗油量数据)names(mpg)[1] “manufacturer” “model” “displ” “year”[5] “cyl” “trans” “drv” “cty”[9] “hwy” “fl” “class”...原创 2020-02-03 20:23:29 · 294 阅读 · 0 评论 -
ggplot2包 (1)
参考书籍:《ggplot2:数据分析与图形艺术》一张统计图形是从数据到几何对象(geometric object,缩写为geom,包括点、线、条形等)的图形属性(aesthetic attributes,缩写为aes,包括颜色、形状、大小等)的一个映射。此外,图形中还可能包含数据的统计变换(statistical transformation,缩写为stats),最后绘制在某个特定的坐标系(...原创 2020-02-02 14:08:05 · 562 阅读 · 0 评论 -
低级绘图常用参数速记
bty 控制图形边框形状cex 控制缺省状态下符号和文字大小lty 连线的线型,1: 实线,2: 虚线…lwd 连线宽度pch 点的形状pty 指定绘图区域类型的字符原创 2020-02-12 20:34:50 · 154 阅读 · 0 评论 -
低级绘图
add=FALSE如果是TRUE,叠加图形到前一个图上(如果有的话)axes=TRUE如果是FALSE,不绘制轴与边框type=“p”指定图形的类型,“p”: 点,“l”: 线,“b”: 点连线,“o”: 同上,但是线在点上,“h”: 垂直线,“s”: 阶梯式,垂直线顶端显示数据,“S”: 同上,但是在垂直线底端显示数据xlim=, ylim=指定轴的...原创 2020-02-12 17:44:44 · 211 阅读 · 0 评论 -
伪相关例子
3.2.3 伪相关例子有时一些特殊的点会使得两个完全不相关的数据向量变得相关。set.seed(10)#设置种子x=rnorm(50)y=rnorm(50)cor(x,y,method = "pearson")#计算相关系数得到相关系数为0.04463877,显然是不相关的当对x和y都增加一个数时x[51]=50y[51]=50cor(x,y,method = "pearso...原创 2020-02-10 18:54:17 · 2360 阅读 · 0 评论 -
R语言中cut函数
cut函数把连续变量分割为类别要将连续型变量变成离散型因子,需要对连续型变量进行切割,每个区间可成为一个因子。可以用cut函数完成连续型变量的切割工作。函数cut()能够把数值变量切成不同的块,然后返回一个因子,对数值数据进行分组:使用cut函数对数值数据进行分组cut(x,breaks,labels=NULL,include.lowest=FALSE, right=TRUE,dig.la...原创 2020-01-26 18:49:35 · 25276 阅读 · 1 评论 -
R语言|paste函数
R语言中paste函数paste(..., sep = " ", collapse = NULL) 参数描述sep表示分隔符,默认为空格。collapse默认为NULL,如果为其指定了特定的值,则自变量连接后字的符型向量会再被连接成一个字符串,之间通过collapse的值分隔paste("我","爱","你")# [1] "我 爱 你"past...原创 2020-02-10 17:42:05 · 2389 阅读 · 0 评论 -
R语言学习笔记(1)
R语言学习setwd(“D:\R语言学习”)#更改工作路径write.table(y,“sample.csv”,sep=",")#保存文件> x=scan()#手动输入1: 12: 23: 34: 55: Read 4 items> x[1] 1 2 3 5x=scan("a.txt")as.array()as.character()as.data....原创 2020-01-24 11:14:26 · 4260 阅读 · 1 评论 -
☆
原创 2020-02-01 20:01:04 · 192 阅读 · 0 评论 -
data.table学习(1)
data.tableDT = data.table(x=c("b","b","b","a","a"),v=rnorm(5))DT x v1: b 0.658536522: b -0.579380613: b 0.084853024: a -1.670341385: a -0.10346345或者可以直接将data.frame转换为data.table...原创 2020-01-23 22:00:05 · 379 阅读 · 0 评论 -
互联网运营指标的建立(转载学习)
文章目录1.项目目标2.项目方案3.项目技术理论简介3.1骨灰级流量指标3.2登录和激活3.3访问深度和吸引力3.4订单指标1.项目目标(1)根据产品运营情况创建运营指标体系。(2)以日和周为单位,分别制作日报和周报。日报一般存放粒度较细的指标,周报则多以趋势对比分析为主。此外,还需要创建一些对比型和趋势性指标。(3)根据运营指标体系整合和创建一个用户价值指标。(4)创建一个用户活跃度指...原创 2020-02-12 20:20:22 · 577 阅读 · 0 评论