网络数据流量分析

网络流量分析


1. 基本概念
IP地址
域名(主机机器名.单位名.网络名.顶层域名)
服务器/主机(Apache最常用 的网络服务器)
客户机


2. 对于每一个请求,服务器在日志文件中记录下用户信息:
用户IP
提交请求的日期时间
用户请求内容(HTML页面、GIF图像)
网络服务器对于该请求返回的状态信息
服务器返回给用户的内容的大小(字节)
该请求的引用地址,即显示用户在单击超链接到达本站前的URL
客户浏览类型、操作系统信息


分析这些信息可以进一步得到:
网站访问量特征(流量的时段特征)
用户行为特征(如访问路径、进站页面、停留时间、退出页面)
此外,用户注册信息和Cookie文件也是网络数据流量分析的重要数据来源。


3. 网络流量分析的数据来源
两种方法:连续抽样法、网站日志分析法


4. 网络数据流量分析的主要指标


网站访问量指标:
访问数/用户会话数;
页面请求数Request(最好不用点击率);
惟一访问者数Unique visitor
页面阅览Page view(近似一次浏览器请求)。


用户特征指标:
用户使用的浏览器;
用户的域名和主机;
用户的计算机操作系统。


用户行为特征指标:
用户的入站路径;
用户的入站页面;
用户浏览站点常用路径;
每个访问的停留时间;
用户的退出页面。


5. 网络数据流量分析的主要流程


数据预处理阶段:
数据净化——删除网络服务器日志中与计量分析无关的数据;
用户识别——IP地址/将访问日志、引用日志和站点拓扑结构相结合,构造用户浏览路径
会话识别——目的是将用户访问记录分为单个会话Session(利用时间长度)
路径补充——确定访问日志中是否有重要的请求没有被记录


模式识别阶段:
此阶段采用的方法包括统计分析、聚类、分类、关联规则、序列模式识别等。
        可以统计对特定网页或文件的访问情况;统计不同领域和地区的访问情况如edu/cn/com等域名网络流量分布;统计常用或少用资源;统计不同领域和地区的;统计用户和地区时间的关联情况等。
        利用数据分析技术进行网络流量分析、典型事件序列和用户行为模式分析、事务分析,可以回答成分和特色在什么上下文中被使用,什么是典型的事件序列;在用户中是否有共同的行为模式;不同用户群在使用和行为上有什么差异;用户的行为是否随时间变化,怎么变化。
        通过分析网络存取日志能帮助理解用户的行为和网络结构;根据具体分析选择访问模式发现的技术,如路径分析可以用来发现网站中最经常访问的路径,从而调整站点结构。
        在网络使用记录分析环境下,关联规则分析的目标是发现用户对站点各页面的访问之间的关系,对于网络服务的分析有用。
        时序模式的发现,各种聚类和分类技术的采用对于网络使用记录中的模式发现都有其各自的作用。日志分析可以与网络内容分析和网络链接结构分析等结合起来。


模式分析阶段:
从上一阶段收集的数据集中过滤掉不感兴趣和无关联的模式。提取有意义的、感兴趣的规则与模式作为分析结果。目前在网络使用模式分析的工具主要是可视化技术和知识的查询机制。




6.网络数据流量分析的主要方法
统计分析
路径分析
关联分析
序列模式分析
分类规则分析
聚类分析法


7. 网络数据流量分析应用
www服务器选择调优
网站管理和维护
用户调查和市场营销
网络广告发布和广告效果评估





评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值