自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 如何处理和变换变量?(五)

并指示哪个 λ 将最大化似然。(请注意,像 Box-Cox 这样的幂变换假设数据值为正。它将建议进行 Box-Cox 转换,目的是理顺预测因子和响应之间的关系。即在函数 yjPower() 中实现的 Yeo-Johnson 变换。car 软件包中的 boxCox() 函数以拟合线性模型为参数。(这与我们之前在Box-cox变换中描述的 p 相同)请注意,该图显示了响应的变换参数 λ 的剖面对数似然。针对负数据值的 Box-Cox 变换的扩展。沿用之前的四个数据集进行展示。

2024-01-03 08:26:53 410 1

原创 如何处理和变换变量?(四)

对于数据集 1,简单线性模型的残差与拟合值对比图显示出 U 型趋势。Y1 与 X1 平方的关系图显示出一种直线关系,X1 转换后的残差图有所改善。对于数据集2, U型趋势也十分明显,但这次的操作是将响应变量Y2进行降幂,开方操作。根据黑色指标的读数,对数据集1,2建议进行平方根变换。而对于数据集 4,建议的转换是极端的。下面的 R 代码可以生成具有非线性关系变量的示例数据集。数据集 1 和 2:简单且单调的非线性关系示例。数据集 3:单调且不简单的非线性关系示例。数据集 4:简单但不单调的非线性关系示例。

2024-01-03 08:02:05 379 1

原创 如何处理和变换变量?(三)

spreadLevelPlot() 函数使用两个坐标轴的对数变换,绘制出hinge spread与中位数的对比图,然后对所绘制的点进行直线拟合。下面的代码模拟了四个不同组的服从泊松分布的响应,其平均值分别为 5、10、15 和 20。建议的幂变换和平方根变换相比,展现的是数据的一种极度的压缩,这个情况下的稳定程度已经非常强了。对于泊松分布来说,方差等于均值,因此均值20的组的方差要比均值5的组的方差大得多。我们可以通过尝试不同的幂变换和检查图来找到一个能稳定分布的幂变换。的分布是如何扩大的。

2024-01-02 08:58:41 365

原创 如何处理和变换变量?(二)

换句话说,大部分数据点集中在分布的左侧,而右侧的数据点相对较少。如果想变换一个取负值的变量(或在向下幂级数变换时为零),添加一个小的正常数,即所谓的起始值。制作一个由 N (10, 2) 分布的 10000 个 i.i.d. 变量组成的样本 X,并研究样本的密度估计值在幂级数向上/向下变换时的变化情况。当分布呈负偏斜时,意味着分布的左尾比右尾长或胖,大部分数据点集中在分布的右侧。创建一个表格,计算 X ∈{2014, 2015, 2016, 2017} 时 X 的连续值与 log(X) 的差值。

2024-01-02 07:22:59 451

原创 如何处理和变换变量?(一)

反之,升幂梯则会分散 X 的大值,压缩小值。在线性回归中,主要关注的通常是预测变量(自变量)的缩放,而不是响应变量(因变量)的缩放。在实践中,我们通常使用简单的幂变换 X^p,而不是按缩放的幂变换,因为这些变换可以得到相同的模型,但更容易解释。查看 以下代码生成的x∈[1, 6] 和 p∈{-1, 0, 0.5, 1, 2, 3} 的 Box-Cox 变换图。进行线性模型分析前的EDA过程时,通常来说所有变量展现出可以直接展开分析的分布形式并不常见,因此对变量进行变换(transform)是非常必要的。

2024-01-01 10:38:36 442

原创 Exploratory Data Analysis (EDA) 简单流程概述(三)

还要注意的是,2011 年 12 月底的registered用户数量仍普遍高于 1 月初的registered用户数量。从温度的角度来看,温度越低,causal用户和registered用户租用自行车的可能性越小。正如我们所看到的,在一年中温度较高的月份,causal用户的使用率最高。根据如下的分析, registered用户在整个工作周的使用率相当稳定,而周末的使用率则明显较低。只有在 3 月、6 月、9 月和 12 月这几个交叉月份,季节变量才会提供月份变量没有提供的额外信息。

2023-12-03 23:59:21 343 1

原创 Exploratory Data Analysis (EDA) 简单流程概述(二)

casual用户在一天中的变化看起来类似一个平滑的正弦函数,其四分位数之间的范围也更加宽阔,casual用户的租用次数比registered用户的租用次数变化要大得多。如果对registered用户而言,时间的影响取决于一个日期在一周内的位置(星期几),那么就不能用一个参数来概括每个时间的影响,我们需要在模型中加入一个交互项。我选择保留 atemp(感觉温度),因为我认为租用自行车的决定更有可能受到对温度的主观感觉而非客观值的影响。需要注意的是,感觉温度通常包含在天气预报中,而不仅仅是个人的判断。

2023-12-03 07:05:38 384

原创 Exploratory Data Analysis (EDA) 简单流程概述(一)

建议提前了解该数据库的特征和意义)为研究数据库,进行了较为完整的EDA分析,可以作为大部分数据库EDA的一个参考流程。为了避免拟合模型的不稳定性,我们将大雨(heavy)和小雨(light)合并为雨(rain)变量。关于数据库的说明中指出,数据库中缺失了所有完全没有自行车被租用的小时数(例如。随后我们发现天气(weather)变量中,大雨(heavy)只出现了一次。首先,需要先加载数据库,加载所需的R packages(需提前安装)。不需要量化的量都考虑做factor,比如日期,节假日,星期等。

2023-11-15 00:07:08 91

原创 R语言 featurePlot函数报错

此类错误出现于运行featurePlot 函数时,缺乏报错代码为Error in grid.Call.graphics(C_downviewport, name$name, strict) : Viewport 'plot_01.panel.1.1.off.vp' was not found

2022-01-29 01:09:25 1709 1

原创 R语言 关于lines函数不出现增设线段的一个原因

lines函数是R语言中常见的一个初级图像绘制函数,但偶尔会出现通过lines函数增加的线没有显示在原有的plot上的情况,其中的一个原因是对于函数的ylim没有定义

2022-01-20 17:59:15 3685 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除