《流量的秘密: Google Analytics网站分析与优化技巧(第3版)》一2.3 了解网站分析数据的准确性...

本节书摘来自异步社区《流量的秘密: Google Analytics网站分析与优化技巧(第3版)》一书中的第2章,第2.3节,作者【英】Brian Clifton,更多章节内容可以访问云栖社区“异步社区”公众号查看

2.3 了解网站分析数据的准确性

流量的秘密: Google Analytics网站分析与优化技巧(第3版)
网站分析对于衡量网站的表现相当重要。但是,只有在避免一些常见的数据收集错误(特别是对不同来源的数据进行比较时)的前提下,这些网站分析数据才是准确可靠的。

遗憾的是,相当多的企业只看到了网站分析报告的表面价值。毕竟,这些数据得来不易。但是,现实总是残酷的,网站分析的数据从来都不是百分之百的准确,就算是估计误差范围也很困难。

那么,关键是什么呢?

尽管有各种各样的缺陷,但误差在每周或每个月的统计中还是保持相对稳定的。甚至在没有重大的技术更新及用户习惯改变的情况下,年度之间的比较也是合理的。只要采用统一的衡量标准,用户数量的变化趋势就是准确的。举例来说,网站分析数据可以揭示以下的情况。

  • 30%的网站流量来自搜索引擎
  • 15%的网站收入由产品页x.html产生
  • 我们上周通过邮件营销提高了20%的订阅转化率
  • 3月份我们的页面跳出率降低了10%

通过这些指标,营销人员和网站管理员可以分析出特定的营销活动产生了哪些影响。

数据的细致程度也至关重要。例如,可以辨别出在某一段时期内,按点击量付费的广告支出(在一个搜索引擎上投放一系列关键词)是否增加了投资回报率。只要能保证数据的准确性,网站分析工具就能非常有效地度量在线业务的访客流量。

常见的数据点冲突

英国的一份对800个组织进行的调查显示,将近2/3(63%)的受访者都遇到过来自不同来源的在线度量数据冲突(《在线度量和策略报告2009》,Econsultancy.com,2009年6月)。

接下来将详细讨论误差扩散的原因,读者在以后的实际操作中也可以把这些因素考虑进去,进而对数据准确度有合适的把握。还记得在表2.1中提到的两种数据的收集方法吗?日志文件技术和页面标签技术,这两种方法都有各自的局限性。

2.3.1 影响日志文件中访客数据准确性的因素

日志文件追踪通常默认安装在服务器上。或许正因为这样,在谈到追踪时网站系统管理员很少考虑其他的追踪方法。

1.动态访问的IP地址
通常,日志文件会通过记录来自同一个IP地址的所有点击和浏览器签名来追踪一个访客的活动。当网络提供商(ISP)在会话过程中为用户分配不同的IP地址时,就会出现问题。一份基于美国的comScore研究(www.comscore.com/Presss_Events/Presentations_Whitepapers/2007/Cookie_Deletion_Whitepaper)表明,一台家用计算机每个月平均有10.5个不同的IP地址。这些会被日志文件分析工具计算为10个独立访客。这个问题会越来越严重,因为用户可以更容易地更新浏览器版本,从而更难通过浏览器签名来进行区分。结果,访客数量通常会被大大高估。日志文件技术的这个缺点可以通过cookie来克服。

2.客户端页面缓存
客户端的缓存是指计算机将访客之前浏览过的网页存储在硬盘中。在这种情况下,当访客再次访问相同网页的时候,页面将由访客的本地计算机提供,因此,该访问不会被记录在服务器端的日志文件中。

服务器缓存可以应用在各种网络加速技术中,服务器会将网页缓存下来,在下次访问的时候直接提供缓存文件来提高传送效率。这就意味着,所有后续的请求都是来自缓存而不是来自网站本身,这样就会造成一些记录数据的丢失。现在,大多数网站都在使用某种方式的缓存来改善性能。例如,维基百科关于缓存的描述可以在http://en.wikipedia.org/wiki/cache中找到。

3.统计网络机器人
网络机器人,也就是网络蜘蛛或网络爬虫,经常被搜索引擎用来抓取和索引网页。然而,除此之外还存在着其他监测服务器性能的机器人,如用来检查服务器功能的(正常运行时间、下载速度等)机器人,用来对页面进行分析的机器人,包括价格比较、电子邮件采集、竞争力研究等。这些机器人的活动也都会被日志文件记录下来,这就影响了网站分析数据的准确性,因为这些机器人并不是真实的访客。

在计算访客数量的时候,机器人会占据相当大的比例。更加麻烦的是,要彻底过滤掉这些数据并不容易,因为存在着数不清的自制的和不知名的机器人。从这个意义上来说,日志文件技术经常会高估访客数量,而且在很多时候,高估的数量是非常大的。

2.3.2 影响页面标签访客数据准确性的因素

很多时候,都可以自动为每一个独立的页面使用同一个页面追踪脚本。但即使是这样,对于大网站来说,要做到100%完全给所有页面都配置好跟踪代码也是非常困难的。或许是因为页面追踪脚本是人眼不可见的,或许是有太多其他数据可以使用,以至于那些页面的标签错误会长时间被忽略。为网站全面地配置页面追踪脚本,对于应用页面标签技术收集数据的准确性和有效性来说是非常重要的。

1.设置错误导致标签丢失
目前最常见的影响页面标签技术准确性的因素是错误的设置。与默认设置“记录所有数据”的网站服务器不同,页面标签技术要求网站管理员将追踪代码插入每一个页面中。就算是自动化的内容管理系统,也无法做到在每个页面准确无误地设置。

事实上,MAXAMINE(www.maxamine.com现属于埃森哲市场营销部)做了一次数据分析。他们使用自动页面审查工具对那些声称页面标签覆盖率100%的网站进行了检测。数据表明,这些网站有多达20%的网页丢失了页面标签,而网站管理员根本没有意识到这一点。甚至有一个公司的B2B的网站,70%的页面没有标签。标签丢失就意味着来自这些页面的浏览数据无法被收集和统计。

2.JavaScript错误导致页面加载失败
页面标签技术只有在访客的浏览器允许JavaScript运行的情况下才能起作用,而很少有互联网用户在他们的浏览器中禁止了JavaScript的运行,如图2.3所示。网站页面的JavaScript代码不一致却可能导致更加严重的问题:页面中任何一段JavaScript的错误都将立即停止浏览器的脚本引擎。因此,放置在其下的页面标签将不会执行。


21162da372c1c2f8729d5aec75145228769617cc

3.防火墙屏蔽页面标签
公司或个人的防火墙能阻止页面标签技术向数据收集服务器发送数据。此外,防火墙还可以设置为拒绝或自动删除cookie。这些都对访客数据有巨大的影响。一些网络分析服务提供商能恢复使用访客的IP地址来跟踪这些情况,但是这种混合记录的方法不值得引荐。正如之前在影响日志文件准确性的因素(comSore报告)中所讨论的,使用访客IP地址信息还不如直接将这些访客数据丢弃来得准确。因此,最好应保持处理数据的一致性。

页面标签技术应用研究

以下数据来自1万多个网站,多个网站分析服务提供商检查了这些页面标签,这些网站的页面标签都是有效的(感谢MAXAMINE的Stephen Kirby提供的信息)。

摘要:

网站内容更新的越频繁,网站越容易丢失页面标签。在下图中,网站在1月14日更新,由于失误,更新的页面没有包含页面标签。


66839855016fa29bbef95ed1ac5abb44be5ab08b

2007年1月份的comSore移动用户研究(http://www.comscore.com/press/release.asp?press=1432)表明,在美国,有3000万用户通过移动设备访问互联网。

www.comscore.com/press/release.asp?press=1432

在当时,由于大多数手机不支持JavaScript和cookie,因此,只有日志文件技术能追踪使用手机浏览互联网的用户。到2010年12月为止,已经有1.09亿人使用移动设备访问互联网(comScore:回顾2010年手机年),这要感谢像iPhone这样成功的智能手机。

现在,智能手机访问互联网时出众的处理能力及类似桌面的使用模式使其很快的进入市场。智能手机上的浏览器与笔记本计算机及家用计算机相同之处是它也可以同时使用JavaScript和cookie。这样,当访客通过智能手机访问你的网站时,也可以用页面标签来进行追踪。如果监测手机访客对你来说很重要,那么请看第6章。

2.3.3 使用cookie时影响访客数据的因素

使用cookie追踪访客是一种简单实用的方法。然而,这种方法的简单性和透明度也带来了一些问题(任何用户都可以删除这些cookie)。关于是否要使用cookie的争论在网站分析业界一直是一个热门话题。

1.访客可以拒绝或者删除cookie
cookie的信息对网站分析至关重要,因为它可以辨别访客、识别其访问来源和随后的网页浏览信息。目前最佳的解决方案是,每个网站分析服务器提供商都只提供第一方的cookie。因为访客通常会觉得第三方cookie在没有他们同意的情况下暗中将他们的信息发送给第三方是对他们隐私的侵犯。因此,目前许多反间谍软件程序和防火墙软件都会对第三方cookie进行自动屏蔽。同样,屏蔽动作也可以在浏览器端非常方便地设置。不过,有证据表明95%以上的访客会接受第一方cookie。

随着访客对互联网认知度的增加,他们反而更加经常性地删除cookie。最近发表的一份来自于comScore的调查结果显示,拉丁美洲2011年2月份、法国2010年8月份、澳大利亚2010年4月份,在一个月内互联网用户删除第一方cookie的比率分别为33%、28%、28%。由Belden Associates(2004),JupiterResearch(2005),Nielsen(2005),comScore(2007)进行的独立研究表明,至少有30%的互联网用户会在一个月内对cookie进行删除。

2.用户拥有或者共享多台计算机
用户行为会对通过cookie收集到的数据的准确性造成很大的影响,考虑以下几种场景。

同一个用户,不同的电脑

如今,人们上网的方式越来越多样化,在公司上网、在家里上网、用手机上网、用平板计算机上网,或者在像网吧这样的公共场所上网。一个用户在3台不同的计算机上上网就会产生3个不同的cookie,而现今所有的网站分析解决方案都会将此计算为3个不同的独立用户。

不同的用户,相同的计算机
人们也常常会共享计算机,特别是在家里。这意味着cookie也是共享的,除非不同的人每次使用时注销或重启计算机,并以新用户的身份登录。在有些情况下,cookie会被刻意删除。例如,网吧的计算机被设置为在每次会话之后自动删除所有的cookie信息,所以就算是一个用户经常光顾那个网吧,使用同一台计算机,网站分析软件每次依然会把他识别为不同的用户。

针对cookie被删除和cookie拒绝的数据修复

对于cookie被删除和cookie拒绝的用户,通过计算来修复数据是一种简单的方法,你所需要做的只是要求用户登录。这样,你可以通过登录账号计算出唯一访客的数量,用这个数字除以网站分析工具报告的独立用户数,所得的结果是一个可以被应用到后面数据(唯一访客数,新访客数或回访数)的修正系数。

一般情况下,要求用户登录的网站是比较少的,因为人们希望尽可能简单地免费获得信息。尽管修正系数的计算很简单,但是很多时候你并没有登录数据来进行计算。值得一提的是,有一小部分网站可以通过计算修正系数来揭示这一问题。这些网站包括网上银行以及一些受欢迎的品牌网站,例如Amazon、FedEx和社交网站。在这类网站上拥有一个账户,最重要的是在访问网站时登录对一个真实的用户是很有益处的。

Sun Microsystems论坛(http://forums.sun.com)是一个特殊的例子。这是一个拥有100万贡献者的全球性开发者社区。2009年Paul Strupp和Garrett Clark发表在“http://blogs.sun.com/pstrupp/”上的研究,解释了以下有趣的数据。

当使用第三方cookie时:

  • 每月的唯一访客的修正系数是78%
  • 20%的用户至少每个月删除(更准确地说是丢失)一次他们的cookie
  • 5%的用户阻止第三方cookie

当使用第一方cookie时:

  • 修正系数提高到83%
  • 每个月删除cookie的用户比例减少到14%
  • 阻止第一方cookie的用户比例降低到不足1%

请注意,这是技术娴熟的受众——他们可以毫不费力地删除或阻止个人cookie。

Paul强调了这项研究的一个有趣的现象是修正系数的值相对较小。就是说,当使用第一方cookie时,一个更精确的访客数据是“报告值×0.83”。把它放到背景中作为分析的一部分,在一个月中使用一台以上的计算机访问论坛的用户中,30%将数据从中去掉。这暗示使用多种设备访问比删除cookie更频繁。

将这一数据应用于独立访客数字的校正是很诱人的。但是,校正系数是删除cookie、多台计算机使用及访客回访频率的复杂函数。这些因素肯定会随着网站的不同而有所不同。尽管如此,这仍是一个有用的经验法则。

3.转化时间对准确性的影响
从访客到客户的转化时间对准确性的影响不容忽视。例如,一些低价商品要么会被立刻购买,要么会在7天之内被购买,在这么短的时间内,网站分析工具有很多机会可以捕获用户所有的页面浏览和行为信息,因此,也可以提供更加准确的数据。对于一些高价的商品,访客需要花更多的时间去考虑,才会最终变成客户。例如,在旅游和金融行业,从第一次访问到最终变成客户的考虑时间可能会长达90天。在这段时间内,用户有可能删除了cookie,重新安装了浏览器,升级了操作系统,购买了新的计算机,或者系统崩溃,任何一种情况都会导致这个用户在最后购买的时候被视为新的客户。离线因素,诸如季节性因素、负面宣传、线下推广、发表博客文章或评论等也会影响潜在用户的转化。

4.线下访问给数据收集带来的影响
还有一些与方法无关的,却会影响数据准确性的因素。高价的商品,如汽车、贷款和按揭等,通常都是先在网上被发现,然后在线下产生交易。如何将线下交易和线上浏览行为联系起来是网站分析长期存在的一个难题。目前,最好的解决方法是利用网上优惠券,用户可以打印这些优惠券换取一些免费礼品,获得一定的折扣。如果你倾向于接受线上订单,你也可以采用类似的激励方法,提供一些仅限网上订购的优惠价格或免费送货等服务。

另外一个问题是如何追踪线下营销活动。如果不将这个因素考虑在内,一些由于线下推广吸引过来的访客会被错误归到其他来源中。如何追踪离线推广活动会在第11章中进行讨论。

2.3.4 比较不同网站分析供应商的数据

在之前的分析中,用不同方法获得的数据是很难进行比较的。然而,两份同样是通过页面标签技术得到的统计数据是否就容易比较呢?很遗憾,这也是相当困难的。

下面的内容描述了导致不同服务供应商之间数据差异的原因。

1.第一方cookie与第三方cookie
这两种cookie有很大的不同,因为后一种cookie更可能被用户、防火墙、反间谍软件屏蔽。例如,网站在没有隐私协议的情况下(www.w3.org/p3p),最新版本的IE浏览器默认是屏蔽第三方cookie的。

2.页面标签放置的位置
使用页面标签的服务供应商通常推荐将页面标签放置在HTML页面的“

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值