自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 [R]_如何按条件提取列名

这一次讲一个很简单的问题,就是R里如何按条件提取列名。我们都知道用filter()可以筛选行,那么我们如何筛选列,并按条件提取呢,这里就要用到select_if()函数。然后我们进行下一步,设置一个任务,我们要提取第一行数值大于3的列的列名,并用“,”隔开。这里为了方便,我们保留只有数值的列,也就是前四列,但在这里,我们不用粗暴的iris=iris[,1:4],我们改用select_if()函数。所以这次的内容很简单,就是用select_if()加上str_c()就可以根据行的条件筛选出对应的列的列名。

2023-01-06 22:05:26 2442

原创 [统计]_数据中心化和标准化对线性回归结果的影响

很多同学在做线性回归的时候,不明白到底是直接那原始数据跑,还是要用中心化的数据跑,或者还是用标准化的数据跑。先说结论,相对于原始回归模型,中心化回归模型只是截距发生了改变(相当于平移到原点),标准化回归模型截距和斜率都有改变,但三个模型的拟合程度都是一致的,就是自变量对因变量的解释程度没有变化。

2022-09-26 11:37:09 4211

原创 [R]_使用grepl()和正则表达式对文本数据进行独热编码(One-Hot Encoding)

那么为什么用grepl()来做这个事儿呢,因为grepl()返回的是逻辑变量,也就是True和Flase,把True设为1,把Flase设为0就能轻松地完成One-Hot编码。

2022-08-30 15:29:47 819

原创 [R]_使用filter_all(),filter_at(),filter_if()筛选数据框的行

今天来讲讲使用filter_all(),filter_at(),filter_if()筛选数据框的行。使用过R,尤其是其中dplyr包的同学,对filter()这个函数不会陌生,filter_all(),filter_at(),filter_if()其实属于filter()更高级的用法,可以更有效地提高数据清洗的效率。...

2022-08-29 15:12:21 2426

原创 [R]_使用算法模型填充NA值(以线性回归为例)

填充缺失值有很多种方法,比如用均值填充,用众数填充,今天介绍用算法模型的预测值填充的方法,包含两步骤,第一个是用已有的数据建模,第二个是用模型填充缺失值。这里以R里著名的iris数据集为例。......

2022-08-26 11:18:43 771

原创 [R]_使用mutate_all(),mutate_at(),mutate_if()操纵数据框的列

用R做数据清洗的人应该对mutate()不会陌生,这个函数用来增加列变量,非常好用,不过它的一些同胞mutate_all(),mutate_at(),mutate_if()知名度就没有那么高,但其实这几个也是很好用的函数,主要用于对列变量使用函数,修改列变量的值。三者区别如下 mutate_all()作用所有变量mutate_at()作用于选中的变量mutate_if()作用于按条件筛选后的变量先建一个dataframe,因为直接rnorm的函...

2022-05-12 10:41:26 7050 1

原创 [统计]_统计学习的三要素

这篇文章是对李航老师的《统计学习方法》同名章节的一个总结,李航老师在书中把统计学习分为了三个要素:模型,策略和算法。我个人感觉这是一个思路很清楚的划分,学习这部分内容,不一定能帮你答题,但有助于从一个更宏观的视角来看统计知识,在这里,我也会以线性回归为例,讲一讲模型,策略和算法的内容。模型就是指你选择的统计模型,比如决策树,支持向量机,贝叶斯网络等等,这些听着太高大上了,我们常见的线性回归,逻辑回归也是统计模型的一种。以线性回归为例,我们选择线性回归分析数据时,其实就假定...

2022-05-06 21:12:00 161

原创 [R]_按条件将字符串拆成两列

最近在处理字符串数据的时候遇到这个问题,解决字符串问题,当然首选是stringr包,可以先认真读官方文档,如果里面的函数都无法解决,再去找别的方法。我开始使用的是网上最常见的函数str_split(),返回一个list,并不是特别友好,所以改用了str_split_fixed()函数。

2022-04-24 10:43:11 2263

原创 [R]_从字符串中截取有用字段

最近解决字符串提取的问题,网上搜了一圈,没有很好的回答,不得不采用科学上网的方法,去stackoverflow上找回答,最后用

2022-04-21 09:35:01 276 1

原创 [统计]_线性回归中因变量一定要正态分布吗?

先说结论,不需要。

2022-03-31 17:12:58 9508

原创 [统计]_假设检验的逻辑

今天主要想谈的是假设检验的逻辑,假设检验贯穿了心理统计学,但很多同学对它的逻辑并不清楚,在这里我们以t检验和单因素的方差分析为例,讲一讲假设检验的逻辑。

2022-03-31 11:12:38 399

原创 [统计]_怎样用数据炒菜:统计建模的两种文化

现在我们经常能听到一个概念叫做“大数据”,顾名思义,那就是海量的数据,如果再说大一点,那就是天量的数据,但是光有数据也不行,我们还希望这些数据能帮我们解决问题,从数据中得到我们问题的结论,这时候就需要借助我们的统计模型。如果把数据看作原材料的话,那统计建模就是拿数据炒菜的过程。

2022-03-29 09:37:01 1534

原创 [R]_用for循环和assign批量赋值新变量

最近在用R的for循环,众所周知,R里for循环并不是最好用的,大部分人都会用apply族函数替代for循环,不过在一些赋值情况下,for循环和assign还是可以一战。

2022-03-29 00:37:18 1813

原创 [R]_使用apply+function快速替换数据框NA值

最近遇到替换NA值的问题,发现使用apply函数加上function能解决很多问题,在这里记录一下。

2022-03-25 23:33:16 1991

原创 [R]_如何手动安装package

R里安装package最常见的方法就是使用 install.packages() 函数,但用惯了函数,就很容易忽视函数背后的逻辑,当函数报错时,就很难想到好的解决办法,所以试试手动安装package更有利于理解install.packages()的逻辑。 install.packages()下载的是CRAN- Contributed Packages里包含的package,这里面的package相当于是受到R官方认证的,如果想下载GitHub上没有被CRAN收录的包,...

2021-09-14 21:10:56 2202

原创 [统计]_通俗地讲置信区间

这是之前发在个人公众号上的文章,希望能对读者有帮助。今天我们谈谈置信区间,可能很多初学者看到置信区间感觉都看不懂,因为书上并没有直接定义置信区间,只说了什么是95%的置信区间,而且说的也很费解,对95%的置信区间的定义是如果不断重复该实验并计算置信区间,在所有计算出来的置信区间中,约有95%的置信区间包含真值。那我反过来问大家一个问题,如果我们只构造一个95%的置信区间,那么这个区间是不是有95%的概率包含真值?不卖关子,这种说法...

2021-09-12 16:09:30 1757

原创 [统计]_通俗地讲一类错误和二类错误

这是之前发在个人公众号上的文章,希望能对读者有帮助一类错误和二类错误。这是一个很容易让人蒙圈的话题,其实很多心理统计的书,尤其是大家考研用的张厚粲老师那本统计教材,其实都只关注了一类错误的问题,但是却提出了二类错误的概念,简略地讲了统计检验力,然后后面的统计分析中基本就没再讲这个问题了,这让很多同学对一类错误和二类错误都不太能清楚地理解。但其实现在心理学界越来越清楚P值的局限,也越来越关注二类错误的问题了。回顾一下概念,一类错误是指,原假设为真,错误地............

2021-09-12 15:46:20 8622 4

原创 [R]_R里如何将多个Excel文件合并为一个Excel文件多个Sheet

最近遇到一个问题,就是从网站上下载了多个Excel文件,需要把它合并成一个Excle多个Sheet,在百度上搜VBA的代码,结果用不了,于是自己写了R的程序,很简单就实现了这个功能。 思路如下:先把...

2021-09-12 10:42:11 3108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除