网站点击流数据分析
一直不懂
笔记
展开
-
【网站点击流数据分析】11-项目代码
1、flume配置tail-hdfs.conf#tail-hdfs.conf用tail命令获取数据,下沉到hdfs启动命令:bin/flume-ng agent -c conf -f conf/tail-hdfs.conf -n a1######### Name the components on this agenta1.sources = r1a1.sinks = ...原创 2018-10-11 23:49:55 · 909 阅读 · 0 评论 -
【网站点击流数据分析】10-数据展示
在企业的数据分析系统中,前端展现工具有很多,独立部署专门系统的方式:以Business Objects(BO,Crystal Report),Heperion(Brio),Cognos等国外产品为代表的,它们的服务器是单独部署的,与应用程序之间通过某种协议沟通信息 有WEB程序展现方式:通过独立的或者嵌入式的java web系统来读取报表统计结果,以网页的形式对结果进行展现。本日志分析项目...原创 2018-10-11 23:48:08 · 806 阅读 · 0 评论 -
【网站点击流数据分析】09-工作流调度
注:将整个项目的数据处理过程,从数据采集到数据分析,再到结果数据的导出,一系列的任务分割成若干个oozie的工作流,并用coordinator进行协调。1、工作流定义示例Ooize配置片段示例。1.1、日志预处理mr程序工作流定义 <workflow-app name="weblogpreprocess" xmlns="uri:oozie:workflow:0.4"&g...原创 2018-10-11 23:38:03 · 312 阅读 · 0 评论 -
【网站点击流数据分析】08-结果导出
报表统计结果,由sqoop从hive表中导出,示例如下,sqoop export \--connect jdbc:mysql://hdp-node-01:3306/webdb --username root --password root \--table click_stream_visit \--export-dir /user/hive/warehouse/dw_click....原创 2018-10-11 23:26:43 · 272 阅读 · 0 评论 -
【网站点击流数据分析】07-统计分析
每一种统计指标都可以跟各维度表进行叉乘,从而得出各个维度的统计结果 ,为了在前端展示时速度更快,每一个指标都事先算出各维度结果存入mysql。提前准备好维表数据,在hive仓库中创建相应维表,如:时间维表:create table v_time(year string,month string,day string,hour string)row format delimited...原创 2018-10-11 23:23:48 · 1282 阅读 · 0 评论 -
【网站点击流数据分析】06-ETL
该项目的数据分析过程在hadoop集群上实现,主要应用hive数据仓库工具,因此,采集并经过预处理后的数据,需要加载到hive数据仓库中,以进行后续的挖掘分析。1、创建原始数据表在hive仓库中建贴源数据表drop table if exists ods_weblog_origin;create table ods_weblog_origin(valid string,remo...原创 2018-10-07 21:19:08 · 461 阅读 · 0 评论 -
【网站点击流数据分析】05-数据仓库设计
采用星型模型 1、事实表 原始数据表:t_origin_weblog valid string 是否有效 remote_addr string 访客ip remote_user string 访...原创 2018-10-07 19:37:52 · 616 阅读 · 0 评论 -
【网站点击流数据分析】04-数据预处理
1、主要目的过滤“不合规”数据 格式转换和规整 根据后续的统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据2、实现方式开发一个mr程序WeblogPreProcess。package com.learn.bigdata.hive.mr.pre;import java.io.IOException;import java.util.HashSet;impor...原创 2018-10-07 19:25:01 · 1291 阅读 · 4 评论 -
【网站点击流数据分析】03-数据采集
1、需求数据采集的需求广义上来说分为两大部分。1)是在页面采集用户的访问行为,具体开发工作:开发页面埋点js,采集用户访问行为 后台接受页面js请求记录日志此部分工作也可以归属为“数据源”,其开发工作通常由web开发团队负责。2)是从web服务器上汇聚日志到HDFS,是数据分析系统的数据采集,此部分工作由数据分析平台建设团队负责,具体的技术实现有很多方式:Shell脚本优...原创 2018-10-07 17:02:10 · 1391 阅读 · 1 评论 -
【网站点击流数据分析】02-整体技术流程及架构
1、数据处理流程该项目是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行,依此有以下几个大的步骤:1.1.数据采集首先,通过页面嵌入JS代码的方式获取用户访问行为,并发送到web服务的后台记录日志然后,将各服务器上生成的点击流日志通过实时或批量的方式汇聚到HDFS文件系统中当然,一个综合分析系统,数据源可能不仅包含点击流数据,还有数据库中的业务数据(如用户信息...原创 2018-10-07 16:50:04 · 919 阅读 · 0 评论 -
【网站点击流数据分析】01-项目业务背景
1、什么是点击流数据1.1、WEB访问日志即指用户访问网站时的所有访问、浏览、点击行为数据。比如点击了哪一个链接,在哪个网页停留时间最多,采用了哪个搜索项、总体浏览时间等。而所有这些信息都可被保存在网站日志中。通过分析这些数据,可以获知许多对网站运营至关重要的信息。采集的数据越全面,分析就能越精准。日志的生成渠道:1)是网站的web服务器所记录的web访问日志;2)是通过在页面嵌...原创 2018-10-07 16:45:35 · 3226 阅读 · 4 评论