聚类应用 crap

最新推荐文章于 2024-01-09 01:21:01 发布

heruilong1988

最新推荐文章于 2024-01-09 01:21:01 发布

阅读量717

点赞数

分类专栏：统计数学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010398018/article/details/37509887

版权

统计数学专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一。数据准备

(1)数据抽取

(2)数据净化:清除数据源中不正确、空值、不完整等不能达到数据挖掘质量要求的数据

(3)衍生变量:将变量的取值映射成适合聚类算法的变量类型(基本来说，聚类算法都是基于距离的，对于一些不是数值类型的变量，需要转换一下表达方式)

(4)异常值处理:异常值指远远偏离一般值的数据，可以采用均值，中位值替换的方法来处理，或者直接剔除

(5)数据标准化:将数据转化成不受量纲影响的数据形式(x-mean)/dev。

二。类别确定

聚类算法都需要指定类别的数量，对于不同数量的类别，聚类的效果也不一样。一个评判聚类效果的标准就是F值(平均组间离差平方和除以平均组内离差平方和)差异大小。越小则表达聚类效果越好。

然后咨询经验人士确认类别范围，然后分别求出每种情况的F值，取最优类别数量作为聚类算法的种类数量。

三。组别评份

2.5+2.5 * log(各组均值/所有用户)/(最强组均值/所有用户均值) //引用别人的论文

群间特征差异是否明显

群内特征是否相似

分群是否易于管理及是否具有业务指导意义

特征项:

记录数，总费用，本地通话时长，长途通话时长，漫游通话时长，IP通话时长，梦网短信发送次数，发送彩信次数，

拨打客服次数，点对点短信发送数量，互联短信发送数量，网内通话时长，拨打联通时长，拨打固话时长。

周末通话次数，9：00-18：00占通话次数比例，非漫游呼入时长占总通话时长比例，组内贡献，

每组人均月度应缴费额度，每组人均语音呼叫时间，每组人均语音呼叫时长的平均单价。

按消费层次细分\

欠费次数应交费优惠费月租费本地通话费长途费漫游费特服费呼转总时长呼转总次数主叫时长主叫次数

按消费时段细分

0 am ----- 1 am 通话次数 1 ---- 2 ......

男性比例，女性比例，平均年龄，

客户基本资料，用户基本资料，账单信息，本地通话信息，长话通话信息，结算信息，

窄带使用信息，宽带使用信息，客服交互行为，缴费信息，欠费信息，服务使用信息

基本信息: 客户身份信息、联系方式、产品拥有情况，用户竣工时间、入网时长、服务开通情况、优惠套餐信息、客户服务信息（投诉、咨询、催缴情况）等

价值信息: 话音、宽窄带业务的月租费、使用费、优惠费用及增值业务、新业务、信息费和卡类、结算费用，还包括了缴欠费信息

行为信息: 时长、次数、跳次、发话不同号码数、时长集中度（拨打时长最多的三个号码拨打时长在总时长中占比）、次数集中度

///引用

另外数据挖掘可以考察非常大的数据量，也就是说对于大量的数据可以自动的进行分析。并且可以帮助我们去学习新的潜在模式，也就是说我们用人工或者传统的方法很难发现的一些规定。比如聚类分析，除了能够有效地帮助我们划分出特征迥异的客户群，并帮助我们发现决定客户分群的主要属性，实现对各客户群特征的深入洞察；同时，正是因为聚类分析能够从众多的维度去对客户属性作综合考察，因此还能为我们揭示一些我们的经验没有发现的关系，或者对我们的经验给以数据证实，而这些往往会给我们带来一些有价值的意外收获，例如在我们的案例中，我们发现拥有宽带的客户离网率会比较低，拥有增值业务的用户新业务的渗透率较高，增值业务和新业务使用较多的用户与移动用户接触较为频繁，入网时长较短的客户离网率高于老客户，卡类用户对价格比较敏感但产品渗透率较高需求较旺盛，低值用户产品渗透率也低，长途构成对ARPU影响至关重要，长途和区间话务较易流失等等，这些对我们市场营销都很有启发意义。

///引用

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类应用 crap

(1)数据抽取(2)数据净化
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。