R语言
文章平均质量分 78
夏烬1030
这个作者很懒,什么都没留下…
展开
-
用forcats操作因子(factor)
在R中,。这些变量是已知的、固定的一组值,比如男女,小学生、中学生、大学生等等。因为在以前,因子操作起来会比字符串更方便,所以基础的R会自动把字符串转为因子。这也导致了,数据集中出现了许多不必要的因子。但在tidyverse中没有这样的烦恼。forcats就是专门处理因子的一个库,但是它不是tidyverse的核心成员,我们需要额外加载。原创 2024-05-29 12:51:05 · 800 阅读 · 0 评论 -
用stringr操作字符串
stringr不属于tidyverse包中的一员,需要手动加载。用单引号或双引号标志出来的就是字符串,建议多用双引号。如果想用双引号,可以把双引号放在单引号里面。对于特殊符号用转义字符\比如想输出\,你得写“\”。想输出",你得写“"”。字符串长度用str_length函数结果会输出一个向量,代表每个元素的字符长度。结果"xy"。也可以连接一个向量,比如:要记住,str_c是向量化操作所以如果你进行下面的操作,你可以想一下结果:结果是:“|-a-|” “|-b-|” “|-c原创 2024-05-28 12:19:37 · 560 阅读 · 0 评论 -
用dplyr处理关系型数据
很多情况下,数据分析需要处理多个表。我们需要联合多个表来分析数据,回答问题。今天,我们来看一下如何用dplyr来操作多个表。如果你学过sql语言,那这一节对你来说会很熟悉。原创 2024-05-27 21:37:58 · 868 阅读 · 0 评论 -
用tidyr实现数据清理
代表年龄段014=0-14岁25-34=25-34岁我们能看到这个数据集的列更像是“值”,而不是变量。所以我们按照我们之前讲的,需要对这个数据集进行gather。原创 2024-05-22 15:20:39 · 599 阅读 · 0 评论 -
综合应用:用tidyverse做探索性数据分析
在有了一批数据之后,我们很难说出这些数据代表什么。这需要我们提出一些假设,并通过视觉化、总结、建模等方式来寻求这些问题的答案。这里有一些试探、摸索的成分,目的是加深我们对数据的理解,发现数据内部潜在的信息。不过在这个过程中,我们会比较关注变量之间的和。其中,最基础要了解的就是数据的分布。原创 2024-05-04 08:13:44 · 980 阅读 · 1 评论 -
dplyr包中的汇总函数n,mean,median等配合summarize和group_by
mean(x)取平均数median(x)取中位数min(x)最小数max(x)最大数quantile(x,0.25)四分位数(比数据中25%的要大,但比75%的要小)first(x)取向量x的第一个值last(x)取向量x的最后一个值nth(x,2)去向量的第2个值n() 不需要参数,返回组的大小10.n_distinct(x)返回向量x中有多少个独特的值count(x)是n()的增强版以上很多x都可以换成逻辑值比如说:count(x$某一列 > 10)原创 2024-04-30 09:48:39 · 278 阅读 · 1 评论 -
R语言中懒得重复中间变量?用管道%>%啊
在R语言中,有一件事很烦人。我们不得不给每个中间生成的数据集命名。对我来说起名字可太难了。为了演示用,我做的操作有点多余,但是我们看到了,在这个过程中,我需要想出不同的变量名(flightsDelay,flightsSimple)来承接中间数据集。为了避免反复起名字,我们就需要用管道%>%了。原创 2024-04-25 08:10:03 · 246 阅读 · 1 评论 -
用dplyr包整理数据
在拿到数据之后,我们需要做数据整理。比如:为了做到这个,我们可以用dplyr包来进行数据的转换。dplyr已经整合进tidyverse了,所以加载tidyverse就行。为了进行演示,我们用到nycflights13库中flights数据集。这个数据集方法2:任务4:筛选凌晨到8点的航班还有一种写法是用到between函数,between返回一个区间范围。注意:缺失值总是排在最后有些数据集有很多变量,这代表着有很多列。可以通过select来选择某些列。mutate会在数据集的最原创 2024-04-23 12:44:28 · 242 阅读 · 0 评论 -
用tidyverse库中的ggplot生成箱线图
见前面的文章。用到的数据库:mpg。原创 2024-04-17 09:57:50 · 148 阅读 · 1 评论 -
用tidyverse库中ggplot函数绘制条形图
参考前面的文章。原创 2024-04-16 22:30:17 · 270 阅读 · 0 评论 -
用tidyverse库中ggplot函数绘制拟合曲线
在用ggplot绘制散点图的时候,会有overplotting的问题。所谓的overplotting,就是在数据可视化中,当图形中的数据点过多,导致数据点重叠,难以区分和解读的现象。为了解决这个问题,我们可以用geom_smooth来绘制拟合曲线,方便我们分析数据。我们用到的就是geom_smooth函数。原创 2024-04-08 20:51:49 · 326 阅读 · 0 评论 -
tidyverse库ggplot2生成散点图
要想使用ggplot2函数,先要安装和加载tidyverse库。原创 2024-04-08 20:16:40 · 345 阅读 · 0 评论