tidyverse数据特征学习

最新推荐文章于 2024-01-29 14:27:38 发布

原创最新推荐文章于 2024-01-29 14:27:38 发布 · 656 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#学习

本文详细介绍了R语言中特征缩放的重要性和方法，包括标准化、归一化、行规范化，以及如何处理数据平滑、非线性特征转换、正态性变换和连续变量离散。此外，还讨论了PCA在特征降维中的应用。

特征缩放

不同数值型特征的数据量纲可能相差多个数量级，这对很多数据模型会有很大影响，所以有必要做归一化处理，就是将列或行对齐并转化为一致。

1，标准化-scale

标准化也称为 Z 标准化，将数据变成均值为 0, 标准差为 1。（标准差：离均差平方的算数平均数（即：方差）的算数平方根）。所以这里缩放的是数据的标准差，而不是数据的范围。

R里常用scale函数：

scale(x) # 标准化

scale(x, scale = FALSE) # 中心化: 减去均值（中心化后，0 就代表均值，更方便模型解释）

示例：

rm(list = ls())
#生成随机数
set.seed(123)
data <- runif(100, 1, 1000)#在1-1000中间生成100个随机数
data[1:10]
[1] 288.28994 788.51683 409.56794 883.13439 940.52682  46.51094 528.57738
[8] 892.52663 551.88358 457.15812

#标准化
a <- scale(data)
a[1:10]
[1] -0.7402982  1.0166700 -0.3143283  1.3489993  1.5505811 -1.5895088
[7]  0.1036736  1.3819880  0.1855330 -0.1471753

#中心化: 减去均值
b <- scale(data, scale = FALSE) 
b[1:10]
[1] -210.77049  289.45640  -89.49249  384.07395  441.46638 -452.54949
[7]   29.51695  393.46619   52.82314  -41.90231

data[1]-mean(data)#减去均值
[1] -210.7705

2，归一化-rescale

归一化是将数据线性放缩到 [0, 1], 一般还同时考虑指标一致化，将正向指标（值越大越好）和负向指标（值越小越好）都变成正向。同时还涉及数据缩放。R语言数据缩放-1到1-CSDN博客

rescale = function(x, type = "pos", a = 0, b = 1) {
rng = range(x, na.rm = TRUE)
switch (type,
"pos" = (b - a) * (x - rng[1]) / (rng[2] - rng[1]) + a,
"neg" = (b - a) * (rng[2] - x) / (rng[2] - rng[1]) + a)
}

探索：

rm(list = ls())
library(dplyr)
library(scales)
#生成随机数
set.seed(123)
data <- runif(100, 1, 1000)#在1-1000中间生成100个随机数
data[1:5]
[1] 288.2899 788.5168 409.5679 883.1344 940.5268

#缩放到-1到1之间
a <- rescale(data,to = c(-1, 1))
a[1:5]
[1] -0.4224240  0.5854362 -0.1780724  0.7760722  0.8917068

注意：标准化和归一化是两种不同数据缩放的方法：归一化（Normalization）是指将数据缩放到[0,1]的范围内，公式为：(x - min)/(max - min)，其中x为原始数据，min和max分别为数据集中的最小值和最大值。归一化后的数据分布在[0,1]之间，适用于数据分布有明显边界的情况。

标准化（Standardization）是指将数据按照均值为0，标准差为1的方式进行缩放，公式为：(x - mean)/std，其中x为原始数据，mean和std分别为数据集的均值和标准差。标准化后的数据分布在均值附近，标准差为1，适用于数据分布没有明显边界的情况。

区分规范化，归一化，标准化，正则化 - 知乎 (zhihu.com)

3，行规范化

行规范化，常用于文本数据或聚类算法，是保证每行具有单位范数，即每行的向量” 长度” 相同。想象一下，𝑚 个特征下，每行数据都是 𝑚 维空间中的一个点，做行规范化能让这些点都落在单位球面上（到原点的距离均为 1）。行规范化，一般采用 𝐿2 范数什么是范数（norm）？以及L1,L2范数的简单介绍-CSDN博客

library(tidyverse)
data <- iris
#前三行 行规范化(去除第5列的物种)
data1 <- iris[1:3,-5] %>%
  pmap_dfr(~ c(...) / norm(c(...), "2"))

# A tibble: 3 × 4
  Sepal.Length Sepal.Width Petal.Length Petal.Width
         <dbl>       <dbl>        <dbl>       <dbl>
1        0.804       0.552        0.221      0.0315
2        0.828       0.507        0.237      0.0338
3        0.805       0.548        0.223      0.0343

4，数据平滑

若数据噪声太多的问题，通常就需要做数据平滑。最简单的数据平滑方法是移动平均，即用一定宽度的小窗口1滑过曲线，会把曲线的毛刺尖峰抹掉，能一定程度上去掉噪声还原原本曲线。窗口宽度越大，平滑的效果越明显。（理解就是使用平均值代替波动值）

比如五点平滑，用前两点/自身/后两点，共五点平均值代替自身因变量值

rm(list = ls())
library(slider)
library(patchwork)
p1 = economics %>%
  ggplot(aes(date, uempmed)) +
  geom_line()
p2 = economics %>% # 做五点移动平均
  mutate(uempmed = slide_dbl(uempmed, mean,
                             .before = 2, .after = 2)) %>%
  ggplot(aes(date, uempmed)) +
  geom_line()
p1 | p2

特征变换

1. 非线性特征

library(tidymodels)
recipe(hwy ~ displ + cty, data = mpg) %>%
step_poly(all_predictors(), degree = 2,
options = list(raw = TRUE)) %>%
prep() %>%
bake(new_data = NULL)

2. 正态性变换

对数变换或幂变换：对于方差逐渐变大的异方差的时间序列数据，或右偏分布的数据，可以尝试做对数变换或开根号变换，以稳定方差和变成正态分布。

rm(list = ls())
df = mlr3data::kc_housing
p1 = ggplot(df, aes(price)) +
  geom_histogram()
p2 = ggplot(df, aes(log10(price))) +
  geom_histogram()
p1 | p2

对数变换特别有用，因为具有可解释性：对数值的变化是原始尺度上的相对（百分比）变化。若使用以 10 为底的对数，则对数刻度上每增加 1 对应原始刻度上的乘以 10。

3. 连续变量离散

在统计和机器学习中，有时需要将连续变量转化为离散变量，称为连续变量离散化或分箱，常用于银行风控建模，特别是线性回归或 Logistic 回归模型。

例子：使得结果更便于分析和解释。比如，年龄从中年到老年，患高血压比例增加 25%，而年龄每增加一岁，患高血压比例不一定有显著变化

rbin 包提供了简单的分箱方法：

• rbin_manual(): 自定义分箱，手动指定切分点（左闭右开）

• rbin_equal_length(): 等宽分箱

• rbin_equal_freq(): 等频分箱

• rbin_quantiles(): 分位数分箱

• rbin_winsorize(): 缩尾分箱，不受异常值影响

特征降维

特征降维（主要是PCA的补充）-CSDN博客

PCA利用的是协方差矩阵的特征值分解原理，实现多个特征向少量综合特征（主成分）的转化，每个成分都是多个原始特征的线性组合，且各个成分互补相关，第一主成分用于解释数据变异（
方差）最大的，第二主成分次之，以此类推。

#鸢尾花主成分降维
rm(list = ls())
data <- iris
 
library(recipes)
recipe(~.,data=iris) %>%
  step_normalize(all_numeric()) %>%
  step_pca(all_numeric(),threshold = 0.85)%>%##设置阈值
  prep()%>%
  bake(new_data=NULL)
————————————————
版权声明：本文为CSDN博主「hx2024」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/hx2024/article/details/134402726

结果：

# A tibble: 150 × 3
Species PC1 PC2
<fct> <dbl> <dbl>
1 setosa -2.26 -0.478
2 setosa -2.07 0.672
3 setosa -2.36 0.341
4 setosa -2.29 0.595
5 setosa -2.38 -0.645
6 setosa -2.07 -1.48
7 setosa -2.44 -0.0475
8 setosa -2.23 -0.222
9 setosa -2.33 1.11
10 setosa -2.18 0.467
# ℹ 140 more rows
# ℹ Use `print(n = ...)` to see more rows

感谢张敬信老师的书籍！！！

参考：

张敬信老师的《R语言编程：基于tidyverse》

为R语言正名之书《R语言编程：基于tidyverse》正式上市！ - 知乎 (zhihu.com)

张敬信老师投稿视频-张敬信老师视频分享-哔哩哔哩视频 (bilibili.com)

资源获取introR: 这是一本中文 R 语言入门书，基于最新 tidyverse 包。 (gitee.com)

张敬信-1393页-R语言编程：基于tidyverse-完整课件(带书签).pdf (gitee.com)