大数据项目-用flink实现用户行为分析二

最新推荐文章于 2023-09-14 11:08:59 发布

易逑实战数据

最新推荐文章于 2023-09-14 11:08:59 发布

阅读量1.5k

点赞数

分类专栏：大数据文章标签： linux mapreduce hadoop

本文链接：https://blog.csdn.net/hhfhhf12345678/article/details/121582958

版权

大数据专栏收录该内容

26 篇文章 0 订阅

订阅专栏

实时流量统计

利用用户的偏好行为，例如点击浏览等，对用户进行流量统计。

执行步骤

创建一个NetworkFlowAnalysis子模块，将apache服务器的日志文件复制到资源文件目录下，我们将从中读取数据。

1.基于服务器log的热门页面浏览量统计

我们需要用户登录的入口流量、不同页面的访问流量进行分析-这些都能从web服务器的日志中提取出来。
热门页面浏览数的统计，读取服务器日志中的每一行log，统计在一段时间内用户访问的每一个url的次数，然后排序输出显示。具体做法为：每隔5秒，输出最近10分钟访问量最多的前N个URL。在scala下创建NetworkFlow.scala文件，新建一个单例对象。定义样例类ApacheLogEvent，作为输入的日志数据流，此外还有UrlViewCount，这是窗口操作统计的输出数据类型。在main函数中创建StreamExecutionEnvironment并做配置，从apache.log文件中读取数据，并包装成ApacheLogEvent类型。

2.基于埋点日志数据的网络流量统计

我们发现，从 web 服务器 log 中得到的 url，往往更多的是请求某个资源地址（/.js、/.css），如果要针对页面进行统计往往还需要进行过滤。而在实际电商应用中，相比每个单独页面的访问量，我们可能更加关心整个电商网站的网络流量。这个指标，除了合并之前每个页面的统计结果之外，还可以通过统计埋点日志数据中的“pv”行为来得到。

3.网站总浏览量(PV)的统计

衡量网站流量一个最简单的指标，就是网站的页面浏览量（Page View，PV）。
用户每次打开一个页面便记录 1 次 PV，多次打开同一页面则浏览量累计。一般来说，PV 与来访者的数量成正比，但是 PV 并不直接决定页面的真实来访者数量，如同一个来访者通过不断的刷新页面，也可以制造出非常高的 PV。
我们知道，用户浏览页面时，会从浏览器向网络服务器发出一个请求（Request），网络服务器接到这个请求后，会将该请求对应的一个网页（Page）发送给浏览器，从而产生了一个 PV。所以我们的统计方法，可以是从 web 服务器的日志中去提取对应的页面访问然后统计，就向上一节中的做法一样；也可以直接从埋点日志中提取用户发来的页面请求，从而统计出总浏览量。所以，接下来我们用 UserBehavior.csv 作为数据源，实现一个网站总浏览量的统计。我们可以设置滚动时间窗口，实时统计每小时内的网站PV。
在src/main/scala下创建PageView.scala文件。

4.网站独立访客数(UV)的统计

UV指的是一段时间内访问网站的总人数，1天内同一访客的多次访问只记录为一个访客。通过IP和cookie一般是判断UV值的两种方式。当客户端第一次访问服务器时，服务器会给客户端电脑发送一个Cookie,在其中分配一个独一无二的编号。Cookie会进行更新，但是编号是不会变的。对于UserBehavior数据源，可以根据userId来区分不同的用户。
使用布隆过滤器的UV统计：将用户ID存在内存里，会占用比较大的内存，而用redis缓存对于上亿级的用户也不行，所以通过压缩处理，用一位(bit)表示一个用户，这个实现就是布隆过滤器。本质上布隆过滤器是一种数据结构，比较巧妙的概率型数据结构（probabilistic
data structure），特点是高效地插入和查询，可以用来告诉你 “某样东西一定不存在或者可能存在”。它本身是一个很长的二进制向量，既然是二进制的向量，那么显而易见的，存
放的不是 0，就是 1。相比于传统的 List、Set、Map 等数据结构，它更高效、占用空间更少，但是缺点是其返回的结果是概率性的，而不是确切的。我们的目标就是，利用某种方法（一般是 Hash 函数）把每个数据，对应到一个位图的某一位上去；如果数据存在，那一位就是 1，不存在则为 0。

易逑实战数据

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据项目-用flink实现用户行为分析二

文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport
复制链接

扫一扫

专栏目录