宽带用户行为模式研究

转载自 :http://www.hbtelecom.com.cn/detail.asp?news_id=78369
_____________________________________________________________


  一、国内外研究现状

  虽然宽带用户渗透率不断增加,但是有关宽带用户行为的研究论文仍然是凤毛麟角。原因很简单,很难从运营商得到研究所需要的数据,大量的日志数据被认为是敏感数据而不能公开。

   目前,在国内的相关研究中,马力、 焦李成等在系统研究Internet的用户行为特征的基础上,从监测和分析的角度,给出了因特网用户行为的一种分类 方式及表示方式。刘培刚等基于国内外最新研究成果对电子商务中应用的web 挖掘技术进行了研究。对于个性化电子商务网站中难以发现用户行为特征问题,给 出了基于web日志的客户群体模糊聚类算法及web页面聚类算法。棘 涌、陈恩红等人提供了一种用神经网络时Web用户的行为进行分析的方法。首先对 www服务器的日志文件进行分析,再进行会话划分,并从会话向量中拽出频繁数据集,以便选取合适的会话向量,进行规一化处理后生成模式向量,并采用 Kohonen的SOFM 模型进行聚类,最后生成用户聚类。总的来讲,国内的研究主要集中在理论探讨或从web服务的角度来进行用户行为分析。

   相比国内的研究,国外研究更注重实际应用,也比较系统和深入。很多国外研究从用户实际调查的角度,定性地给出了宽带用户的行为特征,比如  Pew Internet & American life进行的调查显示随着宽带进入家庭后,宽带用户的行为变化。同时,很多学者对电子商务 应用、近来颇受关注的p2p应用、宽带视频应用等由于宽带而兴起的新应用的用户访问特征进行了深入的研究,比如: D. Menásce and V. Almeida. 等人的《Scaling for E-business:technologies,  models, performance and capacity planning.》;C. Costa, I. Cunha,  A. Borges, C. Ramos, M. Rocha,J. Almeida, and B. Ribeiro-Neto等人的 《 Analyzing client interactivity in streaming media.》; 以及T. Hamada,  K. Chujo, T. Chujo, and X. Yang.等人的《 Peer-to- peer traffic in metro networks: analysis, modeling and policies.》。真正系统研究 用户行为特征的非常少,比如Humberto T. Marques Nt等人从运营商的角度,把宽带用户划分成两类,家庭和办公两类,分别分析两类用户 的会话级以及访问级的行为特征,计算了两类CMBG(用户的行为模式图)。

  二、本文所做的工作

  与以前的研究不同 的是,本文主要对客户端的流量分析包括对不同应用的多种请求特征分析。不仅分析用户产生的流量特征,特别还精确分析在宽带用户的一个会话期内用户对不同应 用的请求特征。同时,本文还对武汉宽带市场上宽带用户进行细分,分为:普通家庭宽带用户、公司宽带用户,针对不同类用户利用以上方法进行对比分析。

  三、结果分析

  1、计费方式。  

  从宽带用户总的应用分布来看,传统应用除www外,如ftp、telnet、pop3、smtp等比列逐步减少,一些新的应用如流媒体、P2P、游戏等比例不断增加,成为主要的服务。其中p2p占用了大量的出口带宽资源,特别是p2p下载和视频。可以给出两个建议:

   (1)由于宽带用户大量使用bt等p2p下载工具,占用大量的带宽资源,普通用户挤占高端用户带宽,导致出口流量价值下降,服务水平下降,为此作为运营 商可以考虑在出口进行p2p高峰时段控制;(2)另一方面,由于p2p视频应用的不断发展,使得p2p应用逐步运营成为可能,并且很容易摆脱运营商的限 制,所以作为运营商,要及时跟踪进展,利用网络优势,自己运营有效益的p2p增值应用。

  2、会话到达过程
在这一部分,我们主要是分析用户会话到达过程的特征。为了避免数据汇总造成的误差,我们选取了大量的用户会话到达率稳定时段,涵盖了一天中的不同时段,一星期中的不同天,包括周末。
我们发现用户会话发起间隔时间无论是家庭用户或公司用户都是呈现对数分布。普通家庭宽带用户的λ范围更小,说明在一天中公司用户通常在工作时间上网,而家庭用户上网次数频次更高。

  3、会话持续时间
为了避免数据的重叠,我们采用了不同天的数据来分析普通家庭和公司宽带用户的会话持续时间,分别给出了某一天的所有发起的会话分布特征,持续多天。

   我们发现普通家庭用户的会话持续时间可以通过对数分布精确的估计,然而,公司用户的会话持续时间对于主体部分最好利用复合对数分布,对于尾部则通过柏拉 图分布,分界点在12小时左右。我们估计这种行为反映了两种不同种类的用户:(1)在工作时候仍然挂在网上,(2)用户在网上工作很长时间,甚至离开工作 岗位仍挂在网上。值得注意的是,一个普通家庭用户会话持续时间为5到13小时,而一个公司用户平均持续时间为7到19小时。

  4、出、入流量
这 一部分分析用户每个会话中流入和流出的流量特征。我们发现无论普通家庭用户和公司用户的出入流量均很好地符合对数分布,分析结果表明,相对于家庭用户,公 司用户收到和发送更多的流量,也许与会话时间更长有关。并且流出流入的流量比在3—5的范围,与窄带相比小很多,可能与用户大量使用P2P应用有关。

  总之,相对于公司用户,普通住宅用户每天发起更多的会话,但会话平均时间更短,每次会话的流入和流出流量更少。

  5、用户请求模式   

   我们现在再来研究用户在一个会话中对不同应用的访问请求模式。我们的分析集中在常见应用。假定我们用户请求访问的服务具有内在不同特征,下一步我们就要 计算用户对每个服务访问的频率和在一个会话中在不同应用间转换的频率。我们的分析涵盖了六类典型的用户行为模式。由于处理空间的限制,我们选取至少在总会 话数种占3%的类别。

  在普通家庭和公司用户的工作流中,会话可以进一步地分为主要的两类超级类。一类会话主要有http支配,但也包 含一些其它的用户比如e-mail,及时消息和P2P服务。此超级类包含了普通家庭用户中的1、2、3类,公司用户中的1、2、3和4类。相比主要由 Http请求的类别,含有e-mail和聊天应用的用户在每次会话持续时间变长,流量变大,换句话说,用户在互联网上交流用了更多的时间。

  第二个超级类主要被P2P请求所支配。平均来看,他们持续时间更长,流量更大,远远超过由http所支配的类别。
值得注意的是,不论是普通家庭用户还是公司用户,应用的环回(应用又回到该类应用)概率非常大,换言之,用户经常重复使用同一类应用。

  四、结论

  主要研究结论如下:

   普通家庭用户和公司用户会话间隔时间、会话时间、流入流出流量呈对数分布。然而家庭用户会话到达率在白天较高,公司用户在一天的会话到达率变化很大。另 外,一个典型的公司用户会话时间较长,并且传输的数据流量更大。对于两类用户的应用请求模式研究结果显示,在每类用户中主要有两组用户,第一组主要使用传 统的internet服务,比如www,e-mail和及时消息等;第二组主要使用p2p应用,并且第二组会话时间相对较长,数据量也很大。
相关建议如下:

  1)引入分时计费产品,改善流量拥塞,扩充网络带宽资源;
  2)为提高流量价值,考虑流量计费方式。
  3)由于宽带用户大量使用bt等p2p下载工具,占用大量的带宽资源,普通用户挤占高端用户带宽,导致出口流量价值下降,服务水平下降,为此作为运营商可以考虑在出口进行p2p高峰时段控制;
  4)由于p2p视频应用的不断发展,使得p2p应用逐步运营成为可能,并且很容易摆脱运营商的限制。所以,作为运营商,要及时跟踪进展,利用网络优势,自己运营有效益的p2p增值应用。


        (课题承担单位:武汉市分公司数据维护中心)

湖北电信  
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值