向前跨一步，走入数据挖掘模型

最新推荐文章于 2024-10-10 11:54:20 发布

clpazw8401

最新推荐文章于 2024-10-10 11:54:20 发布

阅读量89

点赞数

文章标签：人工智能数据结构与算法

随着第一个经营分析系统被用户认可，我们开始切入数据挖掘。
开始做数据挖掘，总是怀着太多的幻想和冲动。想想这个概念只要在书本上听到，想想用户对这个理念的崇拜和期待，想想将和国际化大公司合作，似乎自己将摘下伊甸园一颗最甜的果实，冲动
第一个挖掘项目是关于用户细分和用户的流失分析，老话题了。业务上讲，就是如何把庞大的用户群体按照行为特征区分开；再次基础上，如何保留和挽留高价值用户（这些用户是金主）--我想这个老话题对每个企业都不会过时
如何做用户细分呢：
1、万物归宗，业务领先：企业用户的特征和企业的业务相关，对于通信企业有多种套餐，套餐的组合是通信行业服务和产品的组合，简单讲就是大家话单的费用项，为什么每个月都花100的arpu但每个人构成不同呢，这就是细分的基础，每个人的话费构成方式表明业务消费趋向，细分的本质就是了解用户对不同服务的使用的消费状况
2、找到合适的数据：业务问题必须有数据体现才能成为模型，针对业务问题，详细了解数据在哪里可以获取，数据质量如何，数据历史时间，数据获取的难度和成本，整个过程下来，发现自己对业务问题对应的生产系统无比了解
3、明确业务目标和行动方案：每次挖掘都会有明确的业务目标，没有目标的挖掘只有2种可能，1-卖弄概念和技术；2-把了解数据状况称之为挖掘。目标和行动是相对应的，挖掘成果要想被应用，必须有行动（甚至是系统）可以和结果相配合，否则就像我们在大街上看人群中的美女一样，只是看看（看美女只用动眼球，做挖掘是要投入巨大的人力/物力、时间和需求方的巨大期望，不要把这些当儿戏）
4、设定合适的变量列表：一些挖掘人员的口头禅是“谁都不知道这个指标是否有价值，只有模型可以告诉我们”，我觉得这是不负责任的扯淡--这个说法表明挖掘人员不懂业务，缺乏对变量重要性的先验估计。当开始接触挖掘项目时，会被豪华的变量列表蒙住，毕竟从过去每个用户身上只有几个业务变量，突然有人告诉你可以用200个直接变量和2000个衍生变量描述用户，是好事还是坏事呢？？我认为没有范围的变量列表是挖掘的悲剧--可以尝试下，如果原名是变量在50个以上，变量的增多基本对模型结果没有任何提升（当然前提是已经覆盖了主要的业务变量）
5、用户群体的选择：用户细分绝对不是技术问题，对用户群体的先验切割非常重要--一个极端是把所有的用户建立一个或多个统一的细分模型，如果把高价值用户和低价值用户一起建立细分模型你已经走上这条路；另外一个极端是对每个业务上感兴趣的群体分别建立一个或一组模型，这样成本非常高，项目可扩展性差，并且先验知识已经在直接影模型。我建议的方法如下：1-如果找不到合理的理由把用户群分开建模就不要把用户群分开；2-尝试着建立更抽象的一层模型，使得在不同群体间模型框架一致，但模型评分结果不同
6、选择合适的方法：用户细分有3种典型的方式，1-让系统找到用户群体的天然分布特征，对应sas模块的快速聚类；2-通过模型学习找到用户分群标签，对应sas模块的决策树、回归分析、神经网络等有学习算法；3-通过业务目标选择合适变量，根据数据分布状况把用户切割开，对应sas模块的快速聚类和基本统计分析。我建议的方法如下：1-对于补全类变量只能建立学习模型（例如用户年龄资料的缺失）；2-以业务引导的方式建立用户多个细分标签，每个标签设定的过程中可以考虑使用快速聚类、分位数等方式设定细分规则和门限；3-不要让快速聚类引导全部细分，这样会使得模型结果难于控制，模型难于解释，更难被应用
7、如何把我们的思路告诉业务方：不要告诉业务我们使用了哪些牛逼方式，而要告诉他有了这些群体后，群体的特点如何，我们有什么样的策略可以应用模型推动业务--记住需求方是业务方，任何技术的显示都会被需求方用脚投票（业务方不关注，但不会告诉你，而是不用你的模型）
8、数据挖掘和调研的关系：两者不能互相替换，挖掘是通过现象猜测本质（很多时候只能猜测出现象，猜测不出本质）；调研是针对现象问本质（人的主观参与会使得结果扭曲）

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/8739744/viewspace-627597/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/8739744/viewspace-627597/