离线项目(一)项目结构以及核心指标

离线项目(一)项目结构以及核心指标

一.核心指标概念

DV:即Depth of Visit ,访问深度

网站访问深度就是用户在一次浏览你的网站的过程中浏览了你的网站的页数。

PV:即 page view,浏览量

页面的浏览此处,衡量网站用户访问的网页数量;

用户没打开一个页面就记录1次,多次打开统一页面则浏览量累计。

UV:即Unique Visitor,独立访客数

1天内访问某站点的人数(以cookie为依据);

1天内同一访客的多次访问只计为1个访客。

VV:即Visit View,访客的访问次数

记录所有访客1天内访问了多少次您的网站;

当访客完成浏览并关掉该网站的所有页面时便完成了一次访问,同一访客1天内可能有多次访问行为。

IP:独立IP数

指1天内使用不同IP地址的用户访问网站的数量;

同一IP不管访问了几个页面,独立IP数均为1。

ROI:投资回报率

是指通过投资而应返回的价值,即企业从一项投资活动中得到的经济回报。

转化率:

拿电商网站来说就是所有到达淘宝店铺并产生购买行为的人数和所有到达你的店铺的人数的比率。计算方法为:转化率=(产生购买行为的客户人数 / 所有到达店铺的访客人数)× 100%

RFM:

最近一次消费 (Recency)

消费频率 (Frequency)

消费金额 (Monetary)

ROI:
在这里插入图片描述

###二.项目结构和流程
在这里插入图片描述

三.项目分层以及项目流程

1.数据采集层

数据采集的需求广义上来说分为两大部分。

第一:是在页面采集用户的访问行为,具体开发工作:

1、开发页面埋点 JS,采集用户访问行为

2、后台接受页面 JS 请求记录日志

此部分工作也可以归属为“数据源”,其开发工作通常由 web 开发团队负责

第二:是从 web 服务器上汇聚日志到 HDFS,是数据分析系统的数据采集,此部分工作由数

据分析平台建设团队负责,具体的技术实现有很多方式:

1、Shell 脚本

优点:轻量级,开发简单

缺点:对日志采集过程中的容错处理不便控制

2、Java 采集程序

优点:可对采集过程实现精细控制

缺点:开发工作量大

3、Flume 日志采集框架

成熟的开源日志采集系统,且本身就是 Hadoop 生态体系中的一员,与 Hadoop 体系中的各

种框架组件具有天生的亲和力,可扩展性强

2.数据分析层
3.数据展示层

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值