《Web分析》读书笔记（1）

最新推荐文章于 2021-07-21 07:30:45 发布

lolipusher

最新推荐文章于 2021-07-21 07:30:45 发布

阅读量980

点赞数

分类专栏： 2016实习笔记文章标签： web 读书笔记

本文链接：https://blog.csdn.net/lolipusher/article/details/52765634

版权

2016实习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

WEB数据分析

WEB数据分析

0.理想策略

关键词：转化率，PII；

转化率

转化量 / 点击量 *100%。转化涉及到站点的目的操作，比如用户停留时间超过xx秒，跳转到下单购买页面，跳转到注册页面等。转化率是一项站点的量化关键指标。

Personal Identifiable Information （PII）

能标识特定用户身份的数据。比如证件号码，信用卡号，带有唯一硬件标识的智能设备使用中产生的数据等。

一个成功的数据捕获策略需要考虑若干个方面：

1. 数据来源
2. 隐私保护
3. 捕获方法

假如我们需要捕获数据来评估一个企业的销售情况，那么数据来源不一定局限于企业内部，也可以来自其竞争对手。通过对竞争数据的分析可以侧面反映我们需要分析的数据情况。或者来自该企业内部、其他系统的数据也可以帮助数据分析。比如CRM，ERP这些系统的数据。优秀的数据分析系统可以先收集并存储大量数据，然后事后对其进行回溯分析。因为有的时候搜集数据的时候并不清楚应该怎么定义和传递分割变量。

对数据隐私的保护有关职业道德。每年有大量的个人信息从数据分析服务提供商处泄露，造成巨额经济损失。仅收集必要的信息，不去触碰隐私信息。在必须收集个人隐私的时候需要向用户说明情况，并确保数据捕获，存储和处理机制符合特定的标准。应当对这些捕获和存储系统进行定期的安全审计。

捕获的方法根据不同的数据而有所不同。比如一般情况下使用JavaScript标记来收集网站行为信息，但是要分析站点搜索机器人的行为时，由于它们不会去执行事先插入的JavaScript语句，需要查看Web日志来对机器人的行为进行分析。

1.捕获点击流数据

有以下四种主要的捕获点击流数据的方式

- Web日志
- Web Beacons
- JavaScript标记
- 包嗅探器

1.1 Web日志

最开始，Web日志被用来记录出现的bug。由于其记录的原始数据，它在数据分析方面的作用被发现以后，人们开始让它记录更多的数据从而更好的进行数据分析，而不仅是用于判断错误原因。

过程：

1. 输入URL
2. 页面请求到达Web服务器
3. 服务器接收请求，在Web日志中为这个请求创建一个条目，这个条目通常包括时间，用户的浏览器，IP，页面名称等
4. 服务器将页面发送给用户
5. 在特定的时间，Web日志被从服务器上取下，然后被分析工具分析，并产生标准报告

优点：

每个服务器都可以使用这个机制
有大量免费分析工具可供使用
可以捕获和存储搜索引擎机器人对站点访问和行为
可以容易地使用新工具来处理历史数据

缺点：

更适合捕获技术信息而不是商务和市场信息
如果Web服务器没有设置cookie，对访客的准确识别困难
用户对ISP和VPS缓存的页面访问不会记录在Web日志中
使用过滤器移除图像请求，CSS文件，页面错误等必须要非常小心，以免结果出现误差

1.2 Web Beacons

Web Beacons通常是页面中1x1大小的透明图像，位于一个<img>标签内，通常这个图像存放再一个第三方服务器而不是存放Web的服务器上。

过程：

1. 输入URL
2. 页面请求到达Web服务器
3. 服务器接收请求，返回页面，和一个对第三方服务器上1x1像素的图像获取请求
4. 页面被加载，执行对该1x1图像的调用，发送页面视图数据给第三方服务器
5. 第三方服务器将图像返回给用户浏览器，同时还收集已经浏览的页面，IP，页面浏览时间，之前设置的cookie等

优点：

- 易于实现<img>包装的几行代码，一旦收到这个图像请求，所需捕获的部分会从服务器传来
- 不需要复杂的过滤就可以维持日志规模
- 收集多个站点数据更加方便，可以在一个服务器上收集和存储所有站点的数据

缺点：

- 跨越多个站点来追踪一个访客的行为可能侵犯隐私，同时也会被删除cookie的隐私保护策略限制收集数据的能力
- 如果关闭图像请求，那么数据收集就不能进行了
- 捕获的数据较少，而且能跨越很大范围的站点

1.3 JavaScript标记

目前最受欢迎的方式，将数据服务和数据捕获相分离。从而减少了对公司IT部门的依赖性，数据捕获移交给第三方。用户访问公司服务器时，服务器只返回页面。第三方服务器同时开始捕获数据并进行处理。公司不需要专门建立一个团队和搭建基础设施来分析和捕获数据。

过程：

1. 输入URL
2. 页面请求到达Web服务器
3. 服务器将页面返回，连同页面上的JavaScript代码
4. 页面被加载，执行JavaScript代码，返回采集的会话细节，cookie给数据收集服务器
5. 有时候当需要收集更多数据的时候，数据收集服务器会在收到第一批数据后将更多的代码返回给浏览器来收集额外的数据

优点：

- 在页脚处加上几行JavaScript代码就可以简单高效地获取数据和标准报告
- 如果不能访问Web服务器和服务器日志，这是唯一的收集选择
- 从缓存中读取的页面也会执行JavaScript代码，数据收集也会照常进行
- 对于收集的数据有精确控制权，还可以在特定的页面实现定制的标记
  - - - JavaScript使数据服务和数据捕获分离，加速站点发布过程
        跨越多个域跟踪用户变得容易，因为当访客跨越多个有JavaScript标记的域时，第三方cookie和它定义的元素仍然保持一致

缺点：

- - - - 仍然有少数用户关闭JavaScript标记，导致无法分析该部分数据
        需要随着站点的演化来对插入的JavaScript代码进行定期维护，因为这些代码与站点结构层次关系影响到数据分析效率
        只能收集浏览器端数据。如果IT策略是将主要数据保存在服务器端，那么这个方法就没有作用了
        捕获下载和重定向的数据比Web日志更加困难
        如果站点JavaScript负荷很大，那么Web分析与JavaScript标记可能造成冲突，使网站不能正常工作

1.4 包嗅探器

从技术角度来说，包嗅探器是四种方式中最先进的一种。但是不如JavaScript标签方式受欢迎。包嗅探器可以是安装在Web服务器上，运行于数据层之上的一个软件层，也可以是放置在服务器数据中心的一块硬件，所有的流量都通过嗅探器再到Web服务器。

过程：

1. 输入URL
2. 请求被路由到Web服务器，但在数据包到达之前，它会通过一个基于软件或者硬件的包嗅探器，收集请求的一些属性，将关于访问的数据返回
3. 包嗅探器将请求发送给Web服务器
4. 服务器发回的请求先经过包嗅探器再返回给用户，包嗅探器捕获返回的页面信息并存储数据（也可以继续附加JavaScript标记以获得更多用户信息）

优点：

- 不需要在站点上使用JavaScript标记，从理论上来说不需要经过站点
- 捕获数据的效率高于JavaScript，也可以更全面地收集数据

缺点：

- 在Web服务器上增加额外的软件层或者在数据中心安装新的物理硬件面临成本考虑以及一些设计理念上的阻力
- 收集的Web服务器流量的原始数据包使数据收集过程具有更大的隐私保护责任，因为这个过程会接触到大量身份，密钥，金融信息
- 没办法单独使用，必须要与JavaScript标记配合才可以收集在浏览器端进行交互的数据（flash等），因为这些交互不经过服务器
  - - - 在多个Web服务器的前提下，或Web服务器位于多个网络中，使用包嗅探器的成本更高（购买硬件，安装软件）

2. 竞争数据的获取

只要风够大，猪也能上天。

——环境因素对自身的影响

也许通过上面学习的几种方法，某公司收集到对自己Web服务器的访问量在逐渐上升，用户留存度在上升，但这真的意味着这家公司通过改进过程等方式获得了更多的产出吗？也许只是这家公司的竞争对手表现在变差，而这并不能说明之前这家公司采取的策略是”有效的“。为了更好的排除其他可能性，我们还必须获取竞争数据，从侧面印证我们收集的数据与公司发展策略的相关性。

与获取某一个Web站点访问量数据不同，我们需要不同的方法来获取竞争数据。

1. 基于专门小组的测量
2. 基于ISP的测量
3. 基于搜索引擎的测量

2.1 基于专门小组的测量

有一部分人愿意拿部分隐私和浏览习惯/记录换取报酬。“基于专门小组”更准确的说应该是“有偿问卷调查”这个类型的数据收集方式：不过与问卷不同，“专门小组”成员不需要了解他们的浏览记录等是怎么被使用的。他们只需要正常使用网络即可。

因为参加这种毫不费力的项目就能轻松获得一定的报酬，所以从事这种数据分析工作的公司不愁没有人来参与。“专门小组”的大小以几十万计，而且由于参与者授权数据收集方进行任何必要的数据收集，能够收集到非常全面的信息。

但是，由于报酬的内容不一定能吸引各个方面的网民，比如说有人对金钱报酬不感兴趣，但是对赠送的非卖软件服务趋之若鹜——这意味着“专门小组”可能不具有普遍性，而是只吸收了有若干爱好的使用者来采集数据。而且，安装在小组成员电脑上的监测软件因为会获得大量数据和隐私，这种软件不可能被允许安装在公司电脑上，进一步降低了普遍性。同时，数十万的数据提供者相比以亿计数的网民数量太少。如果这些“专门小组”不具有一定的代表性，那么这几十万人的数据不一定能反映更大尺度数据的真实情况。

因为上面的理由，这种“问卷”式收集竞争数据的方式常用于广告方面的决策，了解用户从哪个站点跳转到哪个站点去这种数据，以及更多深入的站点行为。适用于月访问量超百万的站点（对小站点效果不好而且有误差）。

2.2 基于ISP的测量

通过与ISP合作，一些公司通过ISP收集他们需要的信息。由于对匿名信息的收集不需要事先征得同意，基于ISP的测量比基于专门小组的测量的样本要大得多——差不多差了2-3个数量级。而且由于可以收集各个人群的数据而不用拘泥于用户同意和商业隐私，这种收集方式样本的代表性也更好。有得必有失，这种广撒网的数据获取方式在拥有巨大样本量的同时也具有无法深入分析某单个站点行为，无法方便获取转换率（基于专门小组的测量更适合获得这个数据），无法获得特定PII数据等不足。

因为上面的理由，这种收集数据方式更加适合营销，拓宽用户群，了解竞争对手动向。适用于月访问量小于百万的站点。

2.3 基于搜索引擎的测量

由于搜索引擎的飞速发展，大多数用户依赖搜索引擎来使用网络。在这巨大的样本量下，用户的搜索关键字有很强的代表性。很多搜索引擎免费提供数据以及分析服务。但是这项技术还在发展中，与前两项采用已久的测量方式的结果有较大出入。并且，提供的分析不如其他两种方式详细。不过这种测量方式可以用于某些关键字长期趋势的研究，或者用于了解Web站点访客数统计。

lolipusher

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《Web分析》读书笔记（1）

WEB数据分析WEB数据分析0.理想策略关键词：转化率，PII；转化率转化量 / 点击量 *100%。转化涉及到站点的目的操作，比如用户停留时间超过xx秒，跳转到下单购买页面，跳转到注册页面等。转化率是一项站点的量化关键指标。Personal Identifiable Information （PII）能标识特定用户身份的数据。比如证件号码，信用卡号，带
复制链接

扫一扫