项目:网站浏览日志分析笔记(1)

1. 数据处理流程

网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤 :

  • 数据采集
    数据采集概念,目前行业会有两种解释:

    • 一是数据从无到有的过程(web 服务器打印的日志、自定义采集的日志等)叫做数据采集;
    • 另一方面也有把通过使用 Flume 等工具把数据采集到指定位置的这个过程叫做数据采集。
  • 数据预处理
    通过 mapreduce 程序对采集到的原始日志数据进行预处理,

    比如清洗,格式整理,滤除脏数据等,并且梳理成点击流模型数据。

  • 数据入库
    将预处理之后的数据导入到 HIVE 仓库中相应的库和表中。

  • 数据分析
    项目的核心内容,即根据需求开发 ETL 分析语句,得出各种统计结果。

  • 数据展现
    将分析所得数据进行数据可视化,一般通过图表进行展示。

1.1.点击流概念

点击流(Click Stream)是指用户在网站上持续访问的轨迹。

点击流和网站日志是两个不同的概念

  • 点击流是从用户的角度出发,注重用户浏览网站的整个流程;

  • 网站日志是面向整个站点,它包含了用户行为数据、服务器响应数据等众多日志信息

我们通过对网站日志的分析可以获得用户的点击流数据。

补充知识:

网页与网页之间是靠Referrers参数来标识上级网页来源

用户对网站的每次访问,可视作是一次会话(Session)

1.2.点击流模型生成

点击流数据在具体操作上是由散点状的点击日志数据梳理所得。
点击数据在数据建模时存在两张模型表Pageviews和visits

  • 页面点击流模型Pageviews表
    这个模型强调的是对一个用户的一次访问session的信息识别
  • 点击流模型Visits表(按session聚集的页面访问信息)
    强调的是一次访问session内的起始与结束时间点的情况

2.如何进行网站流量分析

流量分析整体来说是一个内涵非常丰富的体系,整体过程是一个金字塔结构:
在这里插入图片描述

金字塔的顶部是网站的目标:投资回报率(ROI)

2.1.网站流量分析模型举例
  1. 网站流量质量分析(流量分析)

    流量对于每个网站来说都是很重要,但流量并不是越多越好,应该更加看重流量的质量,换句话来说就是流量可以为我们带来多少收入。

  2. 网站流量多维度细分(流量分析)

    细分是指通过不同维度对指标进行分割,查看同一个指标在不同维度下的表现,进而找出有问题的那部分指标,对这部分指标进行优化。
    在这里插入图片描述

  3. 网站内容及导航分析(内容分析)

    对于所有网站来说,页面都可以被划分为三个类别:导航页、功能页、内容页

    导航页的目的是引导访问者找到信息,首页和列表页都是典型的导航页;

    功能页的目的是帮助访问者完成特定任务,站内搜索页面、注册表单页面和购物车页面都是典型的功能页

    内容页的目的是向访问者展示信息并帮助访问者进行 决策,而产品详情页、新闻和文章页都是典型的内容页。

    比如从内容导航分析中,以下两类行为就是网站运营者不希望看到的行为:

在这里插入图片描述

第一个问题:访问者从导航页(首页)还没有看到内容页面之前就从导航页离开网站,需要分析导航页造成访问者中途离开的原因

第二个问题:访问者从导航页进入内容页后,又返回到导航页,说明需要分析内容页的最初设计,并考虑中内容页提供交叉的信息推荐。

  1. 网站转化以及漏斗分析(转化分析)

    • 网站转化,即网站业务流程中的一个封闭渠道,引导用户按照流程最终实现业务目标(比如商品成交);

    • 漏斗模型,是指进入渠道的用户在各环节递进过程中逐渐流失的形象描述;

    对于转化渠道,主要进行两部分的分析:

    访问者的流失:

在这里插入图片描述

访问者的迷失:主要原因是转化流量设计不合理
在这里插入图片描述

2.2流量分析常见分类

指标是网站分析的基础,用来记录和衡量访问者在网站自的各种行为。在进行流量分析之前,我们先来了解一些常见的指标。

  • 骨灰级指标(!!!)

IP:1天之内,访问网站的不重复IP数。一天内相同IP地址多次访问网站只被计算1次。曾经IP指标可以用来表示用户访问身份,目前则更多的用来获取访问者的地理位置信息。

PageView浏览量: 即通常说的PV值,用户每打开1个网站页面,记录1个PV。用户多次打开同一页面PV累计多次。通俗解释就是页面被加载的总次数。

Unique PageView: 1天之内,访问网站的不重复用户数(以浏览器cookie为依据),一天内同一访客多次访问网站只被计算1次。

  • 基础级指标

访问次数:访客从进入网站到离开网站的一系列活动记为一次访问,也称会话(session),1次访问(会话)可能包含多个PV。

网站停留时间:访问者在网站上花费的时间。

页面停留时间:访问者在某个特定页面或某组网页上所花费的时间。

  • 复合级指标

人均浏览页数:平均每个独立访客产生的PV。人均浏览页数=浏览次数/独立访客。体现网站对访客的吸引程度。

跳出率:指某一范围内单页访问次数或访问者与总访问次数的百分比。其中跳出指单页访问或访问者的次数,即在一次访问中访问者进入网站后只访问了一个页面就离开的数量。

退出率:指某一范围内退出的访问者与综合访问量的百分比。其中退出指访问者离开网站的次数,通常是基于某个范围的。

有了上述这些指标之后,就能结合业务进行各种不同角度的分类分析,主要是以下几大方面:

  • 基础分析(PV,IP,UV)

趋势分析:根据选定的时段,提供网站流量数据,通过流量趋势变化形态,为您分析网站访客的访问规律、网站发展状况提供参考。

对比分析:根据选定的两个对比时段,提供网站流量在时间上的纵向对比报表,帮您发现网站发展状况、发展规律、流量变化率等。

当前在线:提供当前时刻站点上的访客量,以及最近15分钟流量、来源、受访、访客变化情况等,方便用户及时了解当前网站流量状况。

访问明细:提供最近7日的访客访问记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照来源、搜索词等条件进行筛选。 通过访问明细,用户可以详细了解网站流量的累计过程,从而为用户快速找出流量变动原因提供最原始、最准确的依据。

在这里插入图片描述

  • 来源分析

来源分类:提供不同来源形式(直接输入、搜索引擎、其他外部链接、站内来源)、不同来源项引入流量的比例情况。通过精确的量化数据,帮助用户分析什么类型的来路产生的流量多、效果好,进而合理优化推广方案。

搜索引擎:提供各搜索引擎以及搜索引擎子产品引入流量的比例情况。

搜索词:提供访客通过搜索引擎进入网站所使用的搜索词,以及各搜索词引入流量的特征和分布。帮助用户了解各搜索词引入流量的质量,进而了解访客的兴趣关注点、网站与访客兴趣点的匹配度,为优化SEO(搜索引擎优化)方案及SEM(搜索引擎营销)提词方案提供详细依据。

最近7日的访客搜索记录,可按每个PV或每次访问行为(访客的每次会话)显示,并可按照访客类型、地区等条件进行筛选。为您搜索引擎优化提供最详细的原始数据。

来路域名:提供具体来路域名引入流量的分布情况,并可按“社会化媒体”、“搜索引擎”、“邮箱”等网站类型对来源域名进行分类。 帮助用户了解哪类推广渠道产生的流量多、效果好,进而合理优化网站推广方案。

来路页面:提供具体来路页面引入流量的分布情况。 尤其对于通过流量置换、包广告位等方式从其他网站引入流量的用户,该功能可以方便、清晰地展现广告引入的流量及效果,为优化推广方案提供依据。

来源升降榜:提供开通统计后任意两日的TOP10000搜索词、来路域名引入流量的对比情况,并按照变化的剧烈程度提供排行榜。 用户可通过此功能快速找到哪些来路对网站流量的影响比较大,从而及时排查相应来路问题。

在这里插入图片描述

  • 受访分析

受访域名:提供访客对网站中各个域名的访问情况。 一般情况下,网站不同域名提供的产品、内容各有差异,通过此功能用户可以了解不同内容的受欢迎程度以及网站运营成效。

受访页面:提供访客对网站中各个页面的访问情况。 站内入口页面为访客进入网站时浏览的第一个页面,如果入口页面的跳出率较高则需要关注并优化;站内出口页面为访客访问网站的最后一个页面,对于离开率较高的页面需要关注并优化。

受访升降榜:提供开通统计后任意两日的TOP10000受访页面的浏览情况对比,并按照变化的剧烈程度提供排行榜。 可通过此功能验证经过改版的页面是否有流量提升或哪些页面有巨大流量波动,从而及时排查相应问题。

热点图:记录访客在页面上的鼠标点击行为,通过颜色区分不同区域的点击热度;支持将一组页面设置为"关注范围",并可按来路细分点击热度。 通过访客在页面上的点击量统计,可以了解页面设计是否合理、广告位的安排能否获取更多佣金等。

用户视点:提供受访页面对页面上链接的其他站内页面的输出流量,并通过输出流量的高低绘制热度图,与热点图不同的是,所有记录都是实际打开了下一页面产生了浏览次数(PV)的数据,而不仅仅是拥有鼠标点击行为。

访问轨迹:提供观察焦点页面的上下游页面,了解访客从哪些途径进入页面,又流向了哪里。 通过上游页面列表比较出不同流量引入渠道的效果;通过下游页面列表了解用户的浏览习惯,哪些页面元素、内容更吸引访客点击。

在这里插入图片描述

  • 访客分析

地区运营商:提供各地区访客、各网络运营商访客的访问情况分布。 地方网站、下载站等与地域性、网络链路等结合较为紧密的网站,可以参考此功能数据,合理优化推广运营方案。

终端详情:提供网站访客所使用的浏览终端的配置情况。 参考此数据进行网页设计、开发,可更好地提高网站兼容性,以达到良好的用户交互体验。

新老访客:当日访客中,历史上第一次访问该网站的访客记为当日新访客;历史上已经访问过该网站的访客记为老访客。 新访客与老访客进入网站的途径和浏览行为往往存在差异。该功能可以辅助分析不同访客的行为习惯,针对不同访客优化网站,例如为制作新手导航提供数据支持等。

忠诚度:从访客一天内回访网站的次数(日访问频度)与访客上次访问网站的时间两个角度,分析访客对网站的访问粘性、忠诚度、吸引程度。 由于提升网站内容的更新频率、增强用户体验与用户价值可以有更高的忠诚度,因此该功能在网站内容更新及用户体验方面提供了重要参考。

活跃度:从访客单次访问浏览网站的时间与网页数两个角度,分析访客在网站上的活跃程度。 由于提升网站内容的质量与数量可以获得更高的活跃度,因此该功能是网站内容分析的关键指标之一。

在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值