| |||
|
2.2 已有的WAP业务模型2.2.1 3GPP2模型[1]2.2.1.1 业务模型
图2.6 WAP业务3GPP2模型
流程分析:
1. WAP用户发出业务请求Request;
2. 网关对请求报文采用相应协议进行解码和转换后将请求转发至服务器,直到网关收到服务器返回的响应数据,这段时间称之为响应时间。Response time.
3. 响应数据到达后,网关依次向用户发送若干个对象的响应。
4. 终端在接收到网关返回的所有对象的响应数据后,开始阅读时间。
5. 阅读时间结束时,用户又发起一个新的业务请求,如此往复。
2.2.1.2 WAP模型的参数描述
1) WAP请求:浏览器针对要浏览的网页根据其对应URL向WAP网关发出请求,请求报文大小固定,浏览器发出这个请求后,经过一个响应时间,WAP网关收到服务器返回的响应数据。
2) 返回对象大小:网关返回用户请求数据报文的大小。
3) 每个响应包含的对象的个数:一次请求的应答由多个返回对象组成。
4) 对象之间的时间间隔:一次响应中终端收到连续两个返回对象的时间间隔。
5) WAP网关响应时间: WAP网关的响应时间是指用户从发出请求报文到接收到来自网关的第一个响应对象报文的时间间隔。
6) 阅读时间:终端接收完最后一个对象报文到发出下一次连接请求的时间间隔。
2.2.1.3 WAP业务模型的参数分布
WAP业务模型的参数服从的分布如下表:
表2.1 WAP业务模型参数分布
2.2.2 其他文献中的模型2.2.2.1 A WAP Traffic Model and its Appliance for the Performance Analysis of WAP over GPRS [2]
该文模型是基于局域网模拟建立的GPRS平台提出的,进行模型分析的数据在模拟平台的WAP网关和用户端之间提取,然后对数据进行分析确定建模对象的分布及其参数(图2.7),并且比较了不同业务的差异。最后根据模型分析结果,进行了评估网络性能的仿真实验。
图2.7 论文A WAP Traffic Model中的模拟数据采集环境
WAP
模型
该文中建立模型如图2.8所示。模型中WAP会话是由用户发起的对网页的请求开始到网关返回页面内容的往复过程。
图2.8 论文A WAP Traffic Model中的WAP模型
WAP会话过程模型由以下几个参数描述,
1. 请求网页数目,n;
2. 上行与下行包大小,由x与y表示;
3. 用户发起下一个网页请求之前的时间为阅读时间
;
4. 网络响应时间,即用户发出请求到数据全部接收的时间间隔
;
模型参数中,网页请求数符合几何分布,阅读时间服从负指数分布,包大小服从以2为底的对数正态分布。
该模型的研究中对于确定参数的分布使用的方法为最小误差法,即使某个分布函数和实际数据的概率密度的误差最小。以下图为例
图2.9 某数据与正态分布和对数正态分布的误差函数图
由上图可以看出,对数正态分布的误差较小,所以对数正态分布比正态分布更适合描述该数据。
WAP
不同应用业务的模型参数
WAP的应用不同,其业务模型参数也不同。该论文也对多种应用进行了数据分析,包括E-mail, 新闻,电子商务与综合的WAP应用。数据的特性因不同应用而异。
表2.2 不同业务的模型参数的比较
1) 电子邮件的请求报文大小较大,因为用户有时会发出较大的电子邮件。
2) 新闻业务的数据包大小在所有业务中方差最大,因为在一次网页请求中,用户往往需要下载几个对象才能看到其所期望的新闻内容。因此网关发送的网页数据包大小常常能够达到WAP的最大传输单元。
3) 新闻内容的阅读时间也是比较长的,这是由于要传输的网页大,所以内容显示时间也较长。
4) 电子邮件的阅读时间的方差在这几种应用最大,因为发送电子邮件时需要在终端输入文本,而终端设备文字的输入的方便性差异很大。
论文的最后根据总结出的业务模型使用GPRSim仿真GPRS网络的WAP业务,对于网络的性能做出分析并且提出了仿真环境中信道的最佳配置方式。
2.2.2.2 Characteristics of WAP Traffic [3]
该文的研究同样是在有线网中的PC机上模拟WAP业务的数据传输,然后对提取的数据进行分析(图2.9)。基于不同的用户行为建立WAP业务模型,并且研究了在网络配置中起重要作用的业务的自相似性。
图2.10 论文Characteristics of WAP Traffic中的数据采集环境
WAP
模型
论文中提出对不同的WAP应用分别进行建模,根据阅读时间的长短不同,使用了两种情景代表典型的数据业务:查找和浏览。
A. 查找情景:
在查找情景中,用户需要找到一个特定的目标。这个情景的上网过程中每次事务用户通常会点击许多网页,但是每个网页的阅读时间比较短,尤其是在用户点击其熟悉的网页的情况下。查找情景例如用户查询股票信息或者天气预报的会话过程,有效的阅读时间在一次事务中只有一次。模型中只分析了下行链路的三个参数,文件到达时间间隔、文件大小和一次会话过程中网关返回文件数。
文件到达时间间隔:查找信息业务中文件下载时间和阅读时间差别较小。文件到达时间间隔服从均值约为6秒的指数分布。(根据情景不同,均值从5.7到6.3秒不等)
图2.11 股票查询应用中文件到达时间间隔图
文件大小:一个网站中的文件大小符合均匀分布,均值大约在600到1000字节。
一次会话过程中返回对象数:会话中对象数目服从指数分布。
B. 浏览情景:
在浏览会话过程中,用户被动接受网页提供的信息而不是用户主动要求网页内容,所以阅读时间相对较大。WAP业务浏览情景的典型例子是新闻阅读会话过程。
网页内容到达间隔,即文件到达间隔服从指数或伽马分布;
文件大小:并不能得出其符合某一个特定的分布,均值为1000字节;
阅读时间:阅读时间服从均值为38秒标准方差为10的正态分布。
图2.12 WAP新闻浏览应用中文件到达时间间隔图
WAP
业务的自相似性
根据论文前面分析得出的模型,作者对各种业务的业务流量进行仿真分析验证其自相似性(图2.13),包括话音业务,Web业务,WAP业务以及它们的混合。
图2.13 文献二的仿真模型
仿真结果:
从下图中表示的信号的突发性我们可以看出WAP业务确实具有自相似的性质。而这个性质也通过基于小波的方法得到了验证。程序中经过20次仿真运行估计的Hurst参数为0.59,而Hurst参数高于0.5则意味着自相似性。
图2.14 WAP业务流量的聚合数据图
WAP业务具有一些自相似特性,但是不同于高度自相似的Web业务。当Web网络流量增加时,业务流量特性不会发生非常大的变化,这是由于有线网业务自相似引起的。
仿真分析中得到的各种业务的Hurst参数如表2.3所示:
表2.3 不同业务的自相似系数
文献结论:
论文认为WAP业务与Web业务具有很大的区别,WAP业务并不具有典型的自相似性,这很大程度上是由于手机的接入方式不同引起的。因此修改有线网的业务模型并不能建立完整的WAP业务模型。
2.2.2.3 模型对比
上面对前人提出的三个WAP业务模型做了分析,由于各个模型关注的重点不一样,使得各模型的侧重面也各不相同。3GPP2提出的模型描述了整个WAP流程,将用户从发出请求到收到信息的过程用一系列模型参数描述,模型比较完整,这对于仿真分析等应用具有重要的意义;文献二中Stuckmann等人对于GPRS网络中的WAP业务建立了简化的模型,重点是分析用户的行为特性,并且针对不同的应用如邮件、电子商务、新闻浏览和混合业务等对数据的特征参数做出了分析。分析了各种具体应用对各个参数的影响,从而对不同业务的网络配置提供了参考,此外,还把业务模型应用于仿真作为无线通信系统的配置依据。文献三中Irvine等人只是对于一些参数做出分析,并没有建立一个完整的模型,但是该论文中提出的把业务分类研究的思想比较具有建设性,以往的研究,如文献二,对于业务的分类都是根据应用区分。此外,Irvine重点研究了WAP网络中的自相似特性,这对于网络配置具有一定的指导意义。
上述的三文献中对于WAP业务模型的研究都具有一定的局限性,3GPP2模型没有区分主对象与内置对象,并且对于数据的流程做了一些简化,省略了终端对于内置对象的URL请求,这样虽然可以使用户行为特性表现的更加清晰,但是对于整个网络的数据流量的模拟引入了较大的误差。同时对数据提取方式、模型参数的验证方法没有给出说明。
文献二的模型是在PC机上模拟GPRS环境下的WAP业务,由于有线网和无线网本身存在的差异,如传输送率、协议转换等必然会造成模型参数分析时的误差。而且其模型由于过于简化,所以应用范围有限。另外,文献中对于不同业务的研究只是简单计算了其特征值,所以不能够深入分析。
文献三中的研究重点是WAP业务的自相似性,但是由于其数据也是从有线网模拟环境中提取,所以并不具有权威性。此外,模型参数的验证方法也缺乏说服力。
2.3 WAP模型与HTTP模型的对比
由于过去对于HTTP业务模型的研究较多,已经形成关于有线网的比较成熟的具有权威性的模型,因此3GPP欧洲电信标准组织ETSI以HTTP模型为基础给出了描述分组数据业务的统一参考模型[13],对其中的参数进行修改从而得到WAP的业务模型,下面将通过对WAP模型和参考文献HTTP模型进行对比说明直接套用HTTP模型不足以完全对WAP业务建模,另一方面,WAP模型与HTTP模型并不是对立的,进行WAP业务模型的研究可以从已有的HTTP模型中得到启发。在我们的研究中就采用了HTTP模型中的一些做法,比如主对象与内置对象的区分等等。此外,由于WAP2.0引入了具有无线特征的HTTP协议,所以在以后的对WAP2.0业务模型的研究中,HTTP模型会更加具有参考价值。
2.3.1 HTTP模型介绍2.3.1.1 HTTP业务模型
图2.15业务基本模型
HTTP业务的基本模型如图2.15所示。假设当阅读时间中止后,用户立即发出新的网页请求,周而复始。这个模型给出了激活和休眠两个状态,激活状态对应网页请求和数据下载的过程,休眠状态对应所有对象下载完毕到下一个请求发出之间的过程。在激活状态下,可以实现多个对象建立多个TCP连接的并行传输(对应HTTP/1.0的情形)。
上图采用了三层的结构来描述:会话(session)、分组呼叫(packet call)、分组(packet)。
一次会话由on/off阶段代表Web网页的下载时间和阅读时间。
一个分组呼叫(packet Call)对应用户发出一次网页请求然后浏览整个网页的过程。其中,每个分组呼叫又分为主对象和内嵌对象,主对象和第一个内嵌对象之间的时间间隔称为网页的解析时间。如图2.16所示:
图2.16 主对象和内嵌对象的返回过程
每个分组对应一个对象的到达,传输过程中对象根据协议规定的MTU分为多个包。
主对象和内嵌对象的区别如图2.17所示,最初的HTML页被称作主对象(main object),主对象中的每一个构成对象(constituent object)被称作内嵌对象(embedded object)。
图2.17 主对象与内嵌对象的区别
2.3.1.2 HTTP业务模型的参数
基于以上的分析, HTTP业务用以下几个参数表示:
: 网页中主对象的大小;
: 网页中内嵌对象的大小;
: 网页中内嵌对象的数量;
: 阅读时间;
: 主页的解析时间。
对采集到的数据进行处理,就可以得到描述业务模型的各个参数的概率分布,然后将得到的分布与标准的概率分布函数比较,取最接近的标准概率分布为相应的参数分布。用Q-Q 画图工具(Quantile-Quantile plot,见参考文献[7])来检测采集到的数据和其他标准分布函数的吻合程度。参考文献中列出的HTTP模型各个参数的统计分布,如表2.4所示:
表2.4 HTTP模型参数
注:从生成的随机数中减去
k得到
Nd
从上表来看,对数正态分布和Pareto分布都采用了截短的形式,是为了防止出现太大或者太小的随机数而使生成的参数偏离正确的结果,所以规定了最大值与最小值。
注:模型的建立是在采集了1900多位用户的数据,前后发出了24000多个网页请求。主要应用Tcpdump和Tcpshow [4]两个工具对数据进行分析。Tcpdump工具记录了TCP/IP分组头以及300B的TCP净荷信息。300B的TCP净荷信息包含了我们需要研究的HTTP请求和应答的分组头信息。通过HTTP的分组头信息字段可以分析得到关于HTTP业务的很多信息,例如,判断是否是网页请求,判断当前连接是激活的还是已经关闭。Tcpshow工具翻译采集到的分组中的二进制信息。它分别对HTTP分组头信息和TCP分组头信息进行解析,分别获得关于HTTP层和TCP层的有关参数。
|