宽带离网用户分析(2) 数据预处理和特征抽取

本文介绍了在宽带离网用户分析中,如何进行数据预处理和特征抽取。针对电信后台多源数据,通过筛选和转换处理离散值特征,如终端型号,以保证模型性能。特征抽取时关注粒度问题,例如,对于时间序列数据,通过计算时间差的直方图特征来捕获变化趋势。这种方法有助于识别潜在的离网用户。
摘要由CSDN通过智能技术生成

宽带离网用户分析之数据预处理和特征抽取

  在讨论数据预处理的方式之前,我们还是需要把具体的数据项列出来以便观察。

电信后台多源数据项

  这里“多源”的意思就是这些数据来自后台不同的部门,有负责硬件网络的,也有维护用户使用记录的部门。
  数据项

预处理

  由于预测任务注重的是Precision值,为了保证预测性能,很多数据不全的用户我们直接筛掉。
这里需要作出说明的是,端口速率和线路稳定的信息,虽然端口速率和线路稳定程度每天都有一条记录,但是这两个指标基本没有变化,因为他们和硬件线路的性能密切相关,硬件线路通常不会有很大的变迁。所以这两个指标我们直接取他们的值作为特征。终端机型号也不会变化,我们直接将N种型号作为离散值特征。
  这里我们简要介绍一下离散值特征的处理,假设终端机型号有“华为”、“中兴”、“TP-link”三种类型,我们对于这种取3个值的离散特征怎么处理呢?是不是让这个特征取0、1、2三种离散值对应三种情况呢?一般来说我们不这样做,再举个栗子:假设有另外一个指标,叫“每天上线次数”,约定每个人每天的上线次数取值区间在0-2,那么也就是可能取0、1、2三个值。
  这两种0、1、2完全不同,对于终端信号特征,0、1、2完全平等,只不过代表不同的型号而已,但是在数值特性上并不是这样,不难发现0-2的距离大于0-1的距离,也就是说“华为和tp-link”的距离大于“华为和中兴”的距离,这是不

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值