【R】特征工程 - 数据降维 应对“维度灾难”

前言

    

    相信很多人在实际生产的过程中遇到过“维度灾难”,数据的变量/维度过多,随着维数的增加,计算量呈指数倍增长。并且,稀疏性对于任何要求有统计学意义的方法而言都是一个问题。所以在面对“维度灾难”时我们要做好数据降维,选择合适的变量或合成适当的特征,这对支撑之后的分析起到了决定性作用。


数据准备

我们以一个kaggle上的信用卡消费数据集为例

百度网盘下载:

链接:https://pan.baidu.com/s/1Qv3nAJxfo7hxjdTOGoLOXA

提取码:f4ks

pacman::p_load(caret, tidyverse, data.table)


set.seed(1)


data <- fread("D://contest//transactions.csv", stringsAsFactors = T) %>% 
  tbl_df() %>% 
  sample_frac(.1) #抽样数据集的10%

#看一下数据维度:18513条记录 、 14个变量

> names(data)
 [1] "authorized_flag"      "card_id"              "city_id"              "category_1"           "installments"        
 [6] "category_3"           "merchant_category_id" "merchant_id"          "month_lag"            "purchase_amount"     
[11] "purchase_date"        "category_2"           "state_id"             "subsector_id"


> dim(data)
[1] 18513    1
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值