模型思路分析
模型目标
梳理出通话异常的手机号码经常出现的基站(疑似窝点)
需要准备数据:手机话单数据、基站位置信息
业务处理:关联、清洗、过滤、聚合、数据标准化、积分规则
手机通话特征分析
特征分析:通话多且广、通话位置相对固定、通话时长短、通话频次低
数据源准备
手机话单数据:提取近半年的通话记录进行分析
模型具体实现
1.通话对象多
近半年中至少存在单个月的通话对象大于等于50个
e.g.总表计算人员值,重复值(去重),过滤通话对象大于50且存在的号码,再用号码关联总表得到这些号码拨打电话的记录,分组统计加上月份,以月份、号码作为指标。
通话时间格式
yyyyMMddHHmmSS 如:20221006234156
聚合字段
聚合字段:用户号码 + 通话时间(年月)
统计:计算去重总数对方号码
2.呼叫类型以主叫为主
聚合统计
统计单个号码的通话次数和主叫次数
from
@column_map1 a_map1 like '202210%'
and b_ma1<'话单类型'=='通话'>
and b_ma2<'用户号码所在地'>='592'
合并出近半年某地的通话数据
1.可以结合over()开窗函数来做
2.可以使用算子来做
统计占比
占比:主叫次数/通话总数
筛选出占比大于等于80%
3.短时通话为主
聚合统计
统计单个号码总的通话次数和通话时长小于等于30S次数
1.可以结合over()开窗函数来做
2.可以使用算子来做
统计占比
占比:30S以内次数/通话总数
筛选出占比大于等于80%
4.上班时间通话为主
聚合统计
统计单个号码总的通话次数和上班时间点(8-18点)通话次数
1.可以结合case when函数来做
2.可以使用算子来做(过滤后打标签再并集)
统计占比
占比:上班时间点通话次数/通话总数
筛选出占比大于等于80%
5.跟任意号码通话频次不超过5次
(跟任意人通过次数都不超过5次的手机号)和(通话手机号码)求交集,统计出至少跟一个人通话大于等于5次人员,排除掉跟某个号码通话次数超过5次的手机号码
6.通话位置固定
通话位置(小区码+扇区码)的个数不超过三个
聚合分析规则
1.小区码+扇区码
2.聚合出现过基站个数
3.筛选小于等于3
4.去重得出异常基站
思路扩展及调优
1.阈值设定
2.多个异常手机号码出现在同一个基站
3.航班信息
4.住宿信息
5.铁路信息