离线项目(一)项目结构以及核心指标
一.核心指标概念
DV:即Depth of Visit ,访问深度
网站访问深度就是用户在一次浏览你的网站的过程中浏览了你的网站的页数。
PV:即 page view,浏览量
页面的浏览此处,衡量网站用户访问的网页数量;
用户没打开一个页面就记录1次,多次打开统一页面则浏览量累计。
UV:即Unique Visitor,独立访客数
1天内访问某站点的人数(以cookie为依据);
1天内同一访客的多次访问只计为1个访客。
VV:即Visit View,访客的访问次数
记录所有访客1天内访问了多少次您的网站;
当访客完成浏览并关掉该网站的所有页面时便完成了一次访问,同一访客1天内可能有多次访问行为。
IP:独立IP数
指1天内使用不同IP地址的用户访问网站的数量;
同一IP不管访问了几个页面,独立IP数均为1。
ROI:投资回报率
是指通过投资而应返回的价值,即企业从一项投资活动中得到的经济回报。
转化率:
拿电商网站来说就是所有到达淘宝店铺并产生购买行为的人数和所有到达你的店铺的人数的比率。计算方法为:转化率=(产生购买行为的客户人数 / 所有到达店铺的访客人数)× 100%
RFM:
最近一次消费 (Recency)
消费频率 (Frequency)
消费金额 (Monetary)
ROI:
###二.项目结构和流程
三.项目分层以及项目流程
1.数据采集层
数据采集的需求广义上来说分为两大部分。
第一:是在页面采集用户的访问行为,具体开发工作:
1、开发页面埋点 JS,采集用户访问行为
2、后台接受页面 JS 请求记录日志
此部分工作也可以归属为“数据源”,其开发工作通常由 web 开发团队负责
第二:是从 web 服务器上汇聚日志到 HDFS,是数据分析系统的数据采集,此部分工作由数
据分析平台建设团队负责,具体的技术实现有很多方式:
1、Shell 脚本
优点:轻量级,开发简单
缺点:对日志采集过程中的容错处理不便控制
2、Java 采集程序
优点:可对采集过程实现精细控制
缺点:开发工作量大
3、Flume 日志采集框架
成熟的开源日志采集系统,且本身就是 Hadoop 生态体系中的一员,与 Hadoop 体系中的各
种框架组件具有天生的亲和力,可扩展性强