网站离线日志分析 log analize

最新推荐文章于 2021-06-29 22:32:35 发布

楚江呐

最新推荐文章于 2021-06-29 22:32:35 发布

阅读量3.7k

点赞数 1

文章标签： spark mysql 大数据

本文链接：https://blog.csdn.net/chujiangai/article/details/104017845

版权

本文介绍了一个网站离线日志分析项目，包括数据清洗、统计PV和UV、跳出用户信息，并使用Spark进行处理。通过分析IP地址，揭示了用户访问活跃度和网站运营情况。

摘要由CSDN通过智能技术生成

网站离线日志分析（log analize）

一.概述：

1.1项目背景

某网站系统实时产生日志信息，记录用户对系统的访问信息，例如：IP地址，用户名称，访问时间，请求和响应信息，其中IP地址信息是表示全国各地用户的访问情况，对IP地址的详细分析，可以了解各个地区对该网站系统访问的活跃度，用以判断该网站公司对区域活动的推广情况和投入成本。本项目为网站运营方向常用技术案例。
网站日志流量分析系统之（日志收集）已将数据落地收集，根据网站日志流量分析系统中架构图，接下来要做的事情就是做离线分析，编写程序或通过手写HQ对数据进行清洗。

1.2任务

1）对日志进行清洗。
2）统计该时间段内的PV。
3）统计该时间段内的UV。
4）统计该时间段跳出用户信息
将获取到的结果存为本地文件result1、result2。

二.数据格式分析

IP: 记录客户端的ip地址, 222.68.172.190
user: 记录客户端用户名称, –
time: 记录访问时间与时区, [18/Sep/2013:06:49:57 +0000]
request: 记录请求的url与http协议, “GET /images/my.jpg HTTP/1.1”
status: 记录请求状态,成功是200, 200
pv：记录一天之内访问的数量，也就意味着一条日志代表一次点击量
uv：记录一天之内独立访客数量，同一个客户在一天之内多次访问只能记录一个uv
人均浏览页数：平均每个独立访客产生的 PV。人均浏览页数=浏览次数/独立访客。体现网站对访客的吸引程度。
跳出率:指某一范围内单页访问次数或访问者与总访问次数的百分比。其中跳出指单页访问或访问者的次数，即在一次访问中访问者进入网站后只访问了一个页面就离开的数量。
退出率:指某一范围内退出的访问者与综合访问量的百分比。其中退出指访问者离开网站的次数，通常是基于某个范围的。