网站离线日志分析 log analize

本文介绍了一个网站离线日志分析项目,包括数据清洗、统计PV和UV、跳出用户信息,并使用Spark进行处理。通过分析IP地址,揭示了用户访问活跃度和网站运营情况。
摘要由CSDN通过智能技术生成

网站离线日志分析(log analize)

一.概述:

1.1项目背景

某网站系统实时产生日志信息,记录用户对系统的访问信息,例如:IP地址,用户名称,访问时间,请求和响应信息,其中IP地址信息是表示全国各地用户的访问情况,对IP地址的详细分析,可以了解各个地区对该网站系统访问的活跃度,用以判断该网站公司对区域活动的推广情况和投入成本。本项目为网站运营方向常用技术案例。
网站日志流量分析系统之(日志收集)已将数据落地收集,根据网站日志流量分析系统中架构图,接下来要做的事情就是做离线分析,编写程序或通过手写HQ对数据进行清洗。

1.2任务

1)对日志进行清洗。
2)统计该时间段内的PV。
3)统计该时间段内的UV。
4)统计该时间段跳出用户信息
将获取到的结果存为本地文件result1、result2。

二.数据格式分析

IP: 记录客户端的ip地址, 222.68.172.190
user: 记录客户端用户名称, –
time: 记录访问时间与时区, [18/Sep/2013:06:49:57 +0000]
request: 记录请求的url与http协议, “GET /images/my.jpg HTTP/1.1”
status: 记录请求状态,成功是200, 200
pv: 记录一天之内访问的数量,也就意味着一条日志代表一次点击量
uv: 记录一天之内独立访客数量,同一个客户在一天之内多次访问只能记录一个uv
人均浏览页数: 平均每个独立访客产生的 PV。人均浏览页数=浏览次数/独立访客。体现网站对访客的吸引程度。
跳出率:指某一范围内单页访问次数或访问者与总访问次数的百分比。其中跳出指单页访问或访问者的次数,即在一次访问中访问者进入网站后只访问了一个页面就离开的数量。
退出率:指某一范围内退出的访问者与综合访问量的百分比。 其中退出指访问者离开网站的次数,通常是基于某个范围的。

三.数据处理方案

  1. 过滤格式不正确的记录;
  2. 对每一行的日志信息进行切分并且过滤清洗掉不符合规则的数据
  3. 通过对日志信息的分析,按照空格切分后,下标为10的是url
  4. 长度小于10的暂且认为是不符合规则的数据
  5. 创建分析后要存入数据的表
  6. Clean类(主要使用Spark core进行格式清洗得到(IP,和格式转化后的时间)
  7. Change(使用SparkSQL进行PV、IP、跳出用户的查询)
  8. Hour类(使用SparkSQL 对24小时访问量的统计)

数据处理流程

Created with Raphaël 2.2.0 开始 数据采集 数据预处理 数据入库 数据分析 数据可视化 结束

数据清理

Created with Raphaël 2.2.0 开始 过滤格式不正确的记录
事件日志分析是指对系统或应用程序产生的事件日志进行收集、解析、分析和利用的过程。事件日志是指系统或应用程序在运行过程中所产生的各种事件信息,如登录事件、错误事件、安全事件等。 通过对事件日志的分析,可以发现系统或应用程序中的潜在问题、错误和安全威胁,从而及时采取相应的措施进行修复或防御。事件日志分析主要包括以下几个方面: 1. 收集事件日志:首先需要在系统或应用程序中配置相应的日志记录功能,并设置日志级别和记录频率,使其能够记录关键事件。然后通过日志服务器或日志收集系统将事件日志收集起来。 2. 解析事件日志:解析事件日志是指将收集到的事件日志进行解析,提取出日志中的关键字段和信息。这些信息可能包括时间戳、日志级别、事件类型、源IP地址等。 3. 分析事件日志:对解析后的事件日志进行分析,根据规则或模型检测其中是否存在异常或威胁性事件。例如,通过统计登录失败事件的频率和来源IP地址,可以判断是否有恶意登录行为。 4. 利用事件日志:分析完事件日志后,可以根据分析结果采取相应的行动。例如,对于安全事件,可以及时触发报警,并采取相应的防御措施,如封锁源IP地址或更新安全策略。 事件日志分析在保障信息系统安全方面起到重要作用,帮助管理员发现和解决问题,提高系统的可靠性和安全性。同时,它也可以用于故障排除、性能优化和风险评估等方面。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值