分类数据聚类&决策树探索聚类因素-R语言

一个临时需求是给到一批调研问卷的数据,维度有100+,需要对这么多维度对个体进行聚类,通过对指标进行处理,以及与研究指标的关联关系,进行降维,最终保留20个左右的指标,基于在20个左右的指标,对对象进行聚类,探究人群聚类特征规则,便于业务人员进行决策,以下便是先聚类,后续需要再基于影响因素探究每一类的特征,故需要决策树。

数据格式
这里写图片描述

R代码

library(rpart)
library(rpart.plot)
library(cluster)
library(party)
library(dplyr)
data<-read.csv("F://分类别_xxx//000000.csv",header=T,as.is=T);#获取数据
treedata2<-data[grep("2",data$S1),]#筛选数据
treedata<-treedata2[,-1]#剔除首列
r1<-clara(treedata,3)#采用k-中心聚类的方式,聚成3类
clusplot(r1)#查看,聚类效果

聚类效果图如下
这里写图片描述

####将聚类结果输出####
type<-r1$clustering
result<-data.frame(treedata2,type)
write.table(result,"F://分类别_xxx//result-2-3.csv",append=TRUE,row.names=FALSE,sep=",")
####对聚类后结果进行统计查看####
part<-table(type)
group <- group_by(result, type,支付能力)
group_result <- summarise(group, n = n())
group_result

基于聚类结果,拟合决策树,对聚类影响因素进行探索

####决策树拟合####
formula=type~ S6_学历+S7a_工作属性+S10+S12a_1_T_家庭结构+S25_1_T_所持房产数量+S28_是否有私家车+S30_家庭结构+C3_日常就餐饮食习惯+C4a_日常出行习惯+Segment+生命周期
dt<-rpart(formula,data=treedata,parms = list(prior = c(.65,.35), method = "class"))#拟合决策树
rpart.plot(dt,type=4)#绘图

这里写图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值