聚类应用 crap

 一。数据准备

(1)数据抽取

(2)数据净化:清除数据源中不正确、空值、不完整等不能达到数据挖掘质量要求的数据

(3)衍生变量:将变量的取值映射成适合聚类算法的变量类型(基本来说,聚类算法都是基于距离的,对于一些不是数值类型的变量,需要转换一下表达方式)

(4)异常值处理:异常值指远远偏离一般值的数据,可以采用均值,中位值替换的方法来处理,或者直接剔除

(5)数据标准化:将数据转化成不受量纲影响的数据形式(x-mean)/dev。


二。类别确定

聚类算法都需要指定类别的数量,对于不同数量的类别,聚类的效果也不一样。一个评判聚类效果的标准就是F值(平均组间离差平方和除以平均组内离差平方和)差异大小。越小则表达聚类效果越好。

然后咨询经验人士确认类别范围,然后分别求出每种情况的F值,取最优类别数量作为聚类算法的种类数量。


三。组别评份

2.5+2.5 * log(各组均值/所有用户)/(最强组均值/所有用户均值)   //引用别人的论文


群间特征差异是否明显

群内特征是否相似

分群是否易于管理及是否具有业务指导意义


特征项:

记录数,总费用,本地通话时长,长途通话时长,漫游通话时长,IP通话时长,梦网短信发送次数,发送彩信次数,

拨打客服次数,点对点短信发送数量,互联短信发送数量,网内通话时长,拨打联通时长,拨打固话时长。

周末通话次数,9:00-18:00占通话次数比例,非漫游呼入时长占总通话时长比例,组内贡献,

每组人均月度应缴费额度,每组人均语音呼叫时间,每组人均语音呼叫时长的平均单价。



按消费层次细分\

欠费次数  应交费   优惠费   月租费   本地通话费   长途费   漫游费    特服费  呼转总时长  呼转总次数   主叫时长   主叫次数

按消费时段细分

0 am ----- 1 am 通话次数  1 ---- 2 ......


男性比例,女性比例,平均年龄,


客户基本资料,用户基本资料,账单信息,本地通话信息,长话通话信息,结算信息,

窄带使用信息,宽带使用信息,客服交互行为 ,缴费信息,欠费信息,服务使用信息


基本信息: 客户身份信息、联系方式、产品拥有情况,用户竣工时间、入网时长、服务开通情况、优惠套餐信息、客户服务信息(投诉、咨询、催缴情况)等

价值信息: 话音、宽窄带业务的月租费、使用费、优惠费用及增值业务、新业务、信息费和卡类、结算费用,还包括了缴欠费信息

行为信息: 时长、次数、跳次、发话不同号码数、时长集中度(拨打时长最多的三个号码拨打时长在总时长中占比)、次数集中度

///引用

另外数据挖掘可以考察非常大的数据量,也就是说对于大量的数据可以自动的进行分析。并且可以帮助我们去学习新的潜在模式,也就是说我们用人工或者传统的方法很难发现的一些规定。比如聚类分析,除了能够有效地帮助我们划分出特征迥异的客户群,并帮助我们发现决定客户分群的主要属性,实现对各客户群特征的深入洞察;同时,正是因为聚类分析能够从众多的维度去对客户属性作综合考察,因此还能为我们揭示一些我们的经验没有发现的关系,或者对我们的经验给以数据证实,而这些往往会给我们带来一些有价值的意外收获,例如在我们的案例中,我们发现拥有宽带的客户离网率会比较低,拥有增值业务的用户新业务的渗透率较高,增值业务和新业务使用较多的用户与移动用户接触较为频繁,入网时长较短的客户离网率高于老客户,卡类用户对价格比较敏感但产品渗透率较高需求较旺盛,低值用户产品渗透率也低,长途构成对ARPU影响至关重要,长途和区间话务较易流失等等,这些对我们市场营销都很有启发意义。

///引用

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值