宽带离网用户分析之任务介绍
接下来把几个研究生阶段的项目中所用到的关键技术分别做介绍,一来对这些项目的技术做个整理,理清思路,二来也为接下来的应聘做准备。这里先介绍研一做的第一个项目——宽带离网用户分析。
项目数据介绍
巧妇难为无米之炊,在我们介绍真正的业务目的之前,我们还是先来看看我们有哪些数据,只有知道我们有了哪些菜,我们才能看菜吃饭~
我们的数据是电信的后台数据,什么叫后台数据呢?那就是和”前台“对立的数据,所谓”前台数据“,我们可以理解为电信运营商的用户数据,包括用户的身份证号、年龄、职业甚至收入等。不仅如此,还包括用户的消费记录、拨打电话的记录等,其实这些数据都直接和电信的营销业务相关,所以称为”前台数据“。而后台数据我们可以理解为和营销业务不相关的在后台获取的数据。
具体的数据项包括:
其实用后台数据做数据挖掘任务的好处就是,一方面和用户行为密切相关,另一方面有不会涉及太多的文本型的用户隐私。
当然还有一个字段是用户的唯一标示咯,我们取的是徐州市的70万宽带用户的信息。我们有10个月的数据,大概有100G的数据,其实大部分是用户上下线的数据(因为用户每上下线一次就有一条记录,数据量很大)。
任务介绍
现在重头戏——我们的任务来了,我们需要预测这70万的用户哪些会”离网“,所谓”离网“就是停用宽带业务。这里插一句,上面的字段是我和电信的专业人员讨论