号码集中度分析法在打击SP端口群发中的应用

  垃圾短信的始作俑者就是SP。
  最初,运营商虽然在业务规范里要求SP不能群发,但却没有在技术上加以限制,所以SP实际上可以随意群发。SP群发与SP欺诈相结合产生了严重问题,所以从2005年开始,各家运营商开始逐步取消SP的免费代码,企图通过技术手段限制SP端口群发。
  不过,这种限制并没有起到实际的效果,用户依然还是不断收到从端口发送过来的垃圾短信。目前的端口群发主要有三种途径:行业网关群发、SP第三方群发、黑网关群发。
  对于第三方群发和黑网关群发的分析,将在后续博文中讨论,本文主要分析行业网关群发。
  行业网关群发就跟当初的SP群发有很大的相似性,可以采取同样的方法来进行分析。2004-2005年,我在配合数据部打击SP端口群发时用到了一种号码集中度分析法,取得了很好的效果。
  以下是号码集中度分析法的详细介绍。 
  
  (一)号码集中度分析法原理
  号码集中度分析法原理:
  正常情况下,用户号码的分布是离散的,不会过度集中;若SP发送对象的号码非常集中,那么很有可能就是群发。
  
  SP业务类型很多:有按条点播的、有按条定制的、有包月定制的,每项业务都有对应的业务代码。为了方便SP向用户发送帮助信息,最初运营商还给每个SP配了一个免费代码,SP就是借用了免费代码来群发。
  正常情况下,SP免费信息量并不大,且用户分布极度离散。但一旦SP做群发,免费信息量必然会有显著变化,且号段分布呈现集中态势,免费用户与计费用户之间的比例也会出现明显变化。
  从某种意义上讲,监控免费信息量的异动就可以有效发现SP的群发行为。但是仅凭这个数据有时不够充分,很容易被SP找出种种理由蒙混过关,逃脱处罚。所以,我们还需要从用户号码分布规律的角度来收集证据,而这个证据不仅更加精确,且强而有力,SP基本找不到借口来解释。
  
  (二)号码集中度的计算
  号码集中是个比较模糊的概念,具体的号码集中度依据HLR分布来进行计算。
  手机号码是按万号段全国统一分配的,同一号段的号码都在一个具体称为“归属位置寄存器”(简称HLR)的网络设备上,所以手机号段的资料有时也称HLR资料。举个例子,1390571就是一个浙江杭州的号段,1390571XXXX的所有用户都是杭州的用户。
  正常情况下,SP计费用户的号段分布是有规律的,免费用户也是如此。目前任何一家SP的订购用户总数,没有哪家能超过移动用户总数的5%,绝大多数不足1%;所以SP单万号段的计费用户数应该不会超过500,绝大多数不会超过100,几大门户这个指标都在100-300之间。对于免费用户,这个数量应该更少。数据表明:一些未作群发的最大几家SP连续几个月单万号段上的免费用户只有不足10个,一般只有2-4个。
  那么,SP做群发后会有什么特征呢?一旦SP群发,单号段的免费用户将会远远大于这个数据,与不做群发的SP相比差异十分明显。一些SP甚至单号段的用户达到1万户,即SP对这个号码每个号码都作了群发。一般说来,单号段最大免费用户超过1000户的,属于严重群发,可以判断必然群发无疑,属于按号段群发的行为,违规手段比较粗放;300-1000的也是群发,主要可能是根据对特定客户群做的比较精细的群发,一些违规经验老到的SP具备这个特征;100-300的一般来说,属于一种对自有用户、其他业务用户的一种群发行为,SP经常自称“交叉销售”。50-100之间的可能有群发,也可能是因为技术问题过多使用免费代码下发,可以让SP去查查原因。50以下的基本不认为是群发。
  
  (三)分析步骤一:汇总数据准备
  分业务的梦网短信汇总数据是分析SP私自群发行为的基础,这个数据只能通过汇总话单得到。在实际中,为了提高程序效率,需要在分业务汇总基础上进一步汇总,得到一份不分业务的只以月份、手机号码、SP企业代码为关键字的汇总数据。
  
  (四)分析步骤二:统计每个号段的用户分布情况
  这个统计主要是得出每家SP在每个号段上的用户分布、次数和费用情况,为下一步号码集中度分析作准备。
  这个统计中需要特别解释的概念是“免费代码用户数”和“群发嫌疑用户数”。
  按照业务规定,SP包月业务的下行(MT)应该用包月业务代码下发。但在实际工作中我们发现很多SP仍然在用免费代码下发,导致其免费代码用户数偏大,对群发分析造成一定干扰。为了排除这种干扰,我们引入“群发嫌疑用户数”的概念。
  群发嫌疑用户数是指从行为特征上看可能是属于SP私自群发的用户的个数。
  这个指标,排除了几类情况的干扰:
  (1)为了排除免费代码下发包月业务内容的影响,统计这个指标时排除有包月信息费但是包月业务MT次数为零的用户数。包月业务MT次数=MT次数-MT计费次数-免费代码次数,可以根据这个公式来计算。
  (2)为了排除用户有MO上行,SP用免费代码下发的情况,统计时同时剔除有MO的用户。当然,由于无法判断MO和MT的先后关系,所以这也会排除掉收到群发后发MO上行的用户,但由于群发上当的用户一般不足1%,所以对分析群发基本没有影响。
  (3)由于SP作群发很少会给用户发超过5条以上的宣传,所以如果MT超过这个条数,可能是因为是由于其他原因引起的,也在统计时排除。
  总之,群发嫌疑用户数的统计口径是:在SP级汇总数据基础上,统计:免费代码次数>0 ,MO次数=0,MT次数>=1且MT次数<6 ,包月费=0或者包月业务MT次数的用户数。
  这个口径用SQL表示为:
  (免费代码次数 > 0)  AND (MO次数 = 0) AND (MT次数 > 1 AND MT次数<6) AND
  (包月费=0 OR MT次数-MT计费次数-免费代码次数 > 0)
  
  在分析群发时,由于“群发嫌疑用户数”指标排除了较多的干扰因素,所以比“免费代码用户数”更能证明SP的私自群发行为,避免SP被查出有嫌疑后以上述几个因素作为借口。
  这里关于“群发嫌疑用户数”的口径,是根据浙江半年多来的群发分析总结出来的。各省可以根据自己的业务理解,对统计口径作一些适当调整。
  
  (五)分析步骤三:号码集中度指标统计
  这一步的任务是在步骤二分SP、分号段的统计结果基础上,进一步进行统计,得出每家SP的私自群发嫌疑指标,以便我们判断SP是否做了私自群发。
  某些群发分析指标只需要直接累加,除这些以外,另外指标需要特别统计:
       群发嫌疑用户比:群发嫌疑用户数与MT用户数之比,用来反映SP私自群发的一个严重程度。
     群发嫌疑计费比:群发嫌疑用户数与计费用户数之比。若SP不群发,这个指标应该基本恒定。
     单号段最大嫌疑数:单号段上,最大的群发嫌疑用户数。这个指标反映群发峰值。
     群发嫌疑指数500:群发嫌疑用户数>=500的号段的群发嫌疑用户数之和。
     群发嫌疑指数100:群发嫌疑用户数>=100的号段的群发嫌疑用户数之和。

      群发嫌疑指数50:群发嫌疑用户数>=50的号段的群发嫌疑用户数之和。
     嫌疑号段数500:群发嫌疑用户数>=100的号段个数。
     嫌疑号段数100:群发嫌疑用户数>=100的号段个数。
     嫌疑号段数50:群发嫌疑用户数>=50的号段个数。
     总号段数:所有的号段个数。
     单号段平均用户数:MT用户数/总号段数;帮助了解用户的平均分布情况。
  
  所有这些指标都以SP为单位进行统计,每个指标都是SP的行为指标。
  
  在分号段的统计中,每个号段有多达15个分析指标;在现在分SP的统计中,有27个行为指标。为何要有这么多分析指标?
  这是对付私自群发的“鸡尾酒疗法”。SP非常聪明,其群发行为手段是多种多样的。若用单一的指标判断群发,短期内可能有效,但是过一段时间,SP熟悉其原理后就可能找到逃脱监控的办法。而我们用这么多指标来监控SP行为,SP的一举一动很难逃脱这么多指标的监控。
  这是发现嫌疑后取证的需要。当我们找出私自群发的SP并准备处罚时,很少会有SP甘心受罚,必定会百般狡辩,企图为其行为找一个理由和借口。比如,解释说是自写短信原因、有很多免费业务的注册用户、用户网站点播免费业务、聊天业务中对非注册用户发送(本身就是一种违规)、语音业务的挂机短信、用户利用自写短信工具群发等等。这些理由往往能够解释一个或几个指标的异常,但绝对无法解释所有指标的异常。
  
  (六)分析步骤四:生成群发分析报表
  这个步骤非常简单,就是将群发分析统计结果形成报表,供分析人员分析。这种报表可以是Excel方式,也可以放在经营分析系统前台直接展现。
  需要生成的报表有:
  (1)SP号码集中度分析统计表:将步骤三的结果,按群发嫌疑用户数从高往低排序,形成统计报表。
  (2)SP群发嫌疑号段表:将步骤二中的结果,筛选出群发嫌疑用户数大于500(或者更少)的号段数据,供发现群发嫌疑后取证使用。
  以上四个步骤都是由系统自动完成的工作后。生成报表后,接下来对SP群发嫌疑的分析和取证的任务就转到分析人员或SP管理人员头上。
  
  (七)分析步骤五:确定群发SP并做处理
  现在,轮到我们真正来对SP作群发的分析了,我们的分析任务是:
  (1)根据指标筛选出有群发嫌疑的SP,排除基本没有嫌疑的SP。
  (2)根据指标判断出群发的严重程度,群发的性质,群发的地域范围。
  (3)分析群发嫌疑SP基本业务关键指标的变化情况,从而推断其性质。
  (4)判断SP可能提供的借口,准备
  (5)写好SP违规嫌疑分析报告,供进一步取证和SP解释。
  
  从表面上看,有这么多任务分析SP群发似乎还很困难。但事实上,有了上述数据后分析和判断群发就是一件非常简单的事情了,所需的只是一些基本的经验。
  发现群发嫌疑主要应用“群发嫌疑用户数”、“群发嫌疑指数500”、“群发嫌疑号段数500”、“单号段最大嫌疑数”、“群发嫌疑用户比”这几个指标,这些指标越大,群发嫌疑也就越大,群发的程度也就越严重。
  对于刚开始实施群发监控的省份,建议采用“群发嫌疑指数500”指标监控;对于一些私自群发控制的比较好的省份,可以用“群发嫌疑指数100”、“群发嫌疑号段数100”来监控群发,以便能够发现一些较为轻微的群发。
  找出群发嫌疑SP很简单,只要找出群发嫌疑指数500(或100)大于零的SP就可以。接下来的工作就是一家家的根据指标分析其群发程度、群发区域、群发手段等等,以作为处罚的依据。另外,在基本解决大范围群发后,可以通过监控免费代码用户数或放宽群发嫌疑用户数统计口径的办法来更加严格地监控SP群发行为。
  
  对于具有群发嫌疑的SP,根据群发违规的严重程度,分成以下几类:
  (1)严重群发。
  判断条件:群发嫌疑指数500大于3万(可自定义)。
  说明:这类群发的特征是群发量大、号码集中度明显、大量指标出现异常、并且通常会有明显的地区分布特征。
  这类群发导致某些号段上的用户分布非常集中,且单号段最大嫌疑数、群发嫌疑用户比都远比正常SP高。按号段进行分析,往往能够发现在某几个地区的某些号段上用户特别集中,而其他一些地区、一些号段上的用户又极少,会出现明显的群发分布特征。这主要因为除了极个别胆大包天的SP外,一般SP作群发都会选定一个或几个地区作群发;也有SP专门选定故意选定普通神州行用户作群发的。
  这类群发的主要手段有:按号段群发;按号码库群发;专业群发公司群发。基本上都是针对非自有用户的群发。
  这类群发特征明显,证据确凿,只要提供其嫌疑指标和分号段分布情况,SP很难找到解释的理由,所以一般不需要通过短信中心抽查嫌疑号码进行内容取证。
  
  (2)中度群发。
  判断条件:群发嫌疑指数500大于零但少于3万,群发嫌疑用户数大于2万。
  说明:这类群发属于对特定客户群的嫌疑,群发目的性较强,这类群发性质虽然不算十分严重,但是需要及时控制。群发的客户可能是自有用户,也有可能是通过其他方式得到的号码群。
  对于这类群发的认定,需要结合其它指标进行进一步分析其行为,另外最好抽查SP对部分一些嫌疑用户的下发内容,以便让SP心服口服。
  
  (3)轻度群发。
  判断条件:群发嫌疑指数500小于零,群发嫌疑指数100(或50)大于零;群发嫌疑用户比大于30%。
  说明:这类群发主要是对自有用户的群发,或不同业务间的交叉群发等。群发程度比较轻,有可能是因为技术方面原因,比如用免费代码下发包月业务等。对于这类群发的认定需要非常仔细,必须要做内容取证。
  
  =====================================================
  该篇文字大部分都是2004年写的,因为要赶时间完成垃圾短信系列,所以只是稍微整理了一下。若有不明之处,请在下面留言,我再详细解释。
  号码集中度分析法的具体代码我在下篇写,供大家参考。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值