使用Spark计算PV、UV

最新推荐文章于 2021-06-03 08:20:00 发布

sanfendi

最新推荐文章于 2021-06-03 08:20:00 发布

阅读量1w

点赞数 1

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/laozhaokun/article/details/43196425

版权

本文介绍了如何使用Spark在Scala Shell中处理日志文件，计算页面浏览量(PV)和独立访客数(UV)。日志数据包含id, ip, url, ref, cookie和time_stamp字段。首先，将日志数据存入HDFS，然后从HDFS读取1000行数据计算PV。接着，通过分析不同cookie来确定UV，以此理解为独立用户访问。最后，通过Python脚本来验证计算结果的准确性。" 51829340,5098759,树状数组解法：区间更新与区间查询,"['数据结构', '算法', '树状数组', '区间操作']

摘要由CSDN通过智能技术生成

日志字段格式：

id,ip,url,ref,cookie,time_stamp

把日志文件放到HDFS。仅取了1000行。

hadoop fs -put 1000_log hdfs://localhost:9000/user/root/input

直接在Scala Shell中读取文件并计算PV。

scala> val textFile = sc.textFile("hdfs://localhost:9000/user/root/input/1000_log")
scala> val textRDD = textFile.map(_.split("\t")).filter(_.length == 6)
scala> val result = textRDD.map(w => ((new java.net.URL(w(2))).getHost,1)).reduceByKey(_ + _).map(item => item.swap).sortByKey(false).map(item => item.swap)
scala> result.saveAsTextFile("hdfs://localhost:9000/user/root/out8.txt")

从HDFS上取回结果：

hadoop fs -get hdfs://localhost:9000/user/root/out8.txt

查看结果：

$ more out8.txt/part-00000 
(www.j1.com,126)
(tieba.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sanfendi

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark -- WOE简介与实现

shiter编写程序的艺术

10-27

441

文章大纲woe 简介参考文献 woe 简介 WOE全称是Weight of Evidence，即证据权重，也叫作自变量的一种编码 WOE的公式定义如下：参考文献 https://blog.csdn.net/weixin_41008393/article/details/92830843 https://zhuanlan.zhihu.com/p/146476834 https://blog.csdn.net/mydear_11000/article/details/82081133 https://

PV、UV的几种写法

01-20

以下是使用Scala编写Spark代码来计算PV和UV： ```scala import org.apache.spark.{SparkConf, SparkContext} val conf = new SparkConf() conf.setAppName("pv_uv") conf.setMaster("local") // 创建SparkContext...

参与评论您还未登录，请先登录后发表或查看评论

Spark部分：PV,UV【原理+图解+代码】

wyqwilliam的博客

08-13

1335

PV是网站分析的一个术语，用以衡量网站用户访问的网页的数量。对于广告主，PV值可预期它可以带来多少广告收入。一般来说，PV与来访者的数量成正比，但是PV并不直接决定页面的真实来访者数量，如同一个来访者通过不断的刷新页面，也可以制造出非常高的PV。 1、什么是PV值 PV（page view）即页面浏览量或点击量，是衡量一个网站或网页用户访问量。具体的说，PV值就是所有访问者在24小时（0点到2...

Spark中如何统计pv,uv的数量？

知其然，知其所以然

03-16

1147

美图欣赏：一.新鲜一感你本来是有机会的，但是你输了，你不能总是活在过去二.pv , uv 的概念 pv、uv属于统计网站的访问量 pv：用用户请求的ip地址来计算用户访问的网站的页面的次数该需求的统计具有真实性，是衡量网站流量的重要指标 uv：可以理解为访问某网站的电脑的数量网站判断来访电脑的身份是通过来访电脑的cookies实现的，往往是按天来统计如果更换了ip后但不清除co...

SparkStreaming项目实战，实时计算pv和uv（硬肝）

大数据技术派

06-03

805

关注我，回复"资料"，获取大数据资料最近有个需求，实时统计pv,uv，结果按照date,hour,pv,uv来展示，按天统计，第二天重新统计，当然了实际还需要按照类型字段分...

spark统计pv和uv值

张不帅

04-25

2297

文章目录PV 值:page view代码逻辑UV （unique visitor ）即独立访客数 PV 值:page view 页面浏览量或点击量，是衡量一个网站或网页用户访问量。具体的说，PV 值就是所有访问者在 24 小时（0 点到 24 点）内看了某个网站多少个页面或某个网页多少次。PV 是指页面刷新的次数，每一次页面刷新，就算做一次 PV 流量。代码逻辑取网址链接mapToPair ...

spark点击流数据

05-03

内含13W+点击流数据，均已处理成结构化数据，可以直接用于统计操作。数据格式： 158.189.122.206 江西 2018-11-12 1542011090255 341319664806502161 www.taobao.com Regist 103.190.42.13 江苏 2018-11-12 ...

最全面的大数据Spark-Core实战案例数据集

最新发布

03-22

实战案例：通过分析点击流日志数据，可以统计PV（页面浏览量）、UV（独立访客数）、用户访问路径等信息，进而优化网站结构、提升用户体验。电商交易数据分析：数据集：包含电商平台的交易数据，如订单信息、用户...

24：Spark2.3.x Streaming实时计算.zip

03-08

例如，通过从Kafka主题中读取数据，经过清洗、聚合，可以实时计算出网站的UV（独立访客数）、PV（页面浏览量）等指标。总的来说，Spark 2.3.x Streaming提供了一种强大而灵活的实时数据处理平台，它结合了Spark的...

03_SparkRDD（RDD编程实战）

08-28

在本实例中，我们将学习如何使用Python接口PySpark来处理RDD，通过实现三个基本的运营案例：计算访问量（PV）、独立访客量（UV）以及访问的Top N。 1. 计算访问量（PV）在这个案例中，我们首先创建一个`SparkConf`...

使用pyspark统计在线人数

05-22

使用pyspark的API，从hdfs中读取csv文件，并把统计的在线人数信息按日期分区插入到hive表中

[Spark应用]-- 实现uv统计（使用内置函数）

欢迎来到我的博客，一起探索代码里的世界！

05-30

3898

废话不多说，具体实现代码如下 import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.sql.SQLContext import org.apache.spark.sql.Row import org.apache.spark.sql.types.StructTyp...

Spark Streaming实战对论坛网站动态行为pv，uv，注册人数，跳出率的多维度分析，实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示

qq_36864672的博客

11-04

1099

论坛数据运行代码自动生成，该生成的数据会作为Producer的方式发送给Kafka，然后SparkStreaming程序会从Kafka中在线Pull到论坛或者网站的用户在线行为信息，进而进行多维度的在线分析数据格式如下： date：日期，格式为yyyy-MM-dd timestamp：时间戳 userID:用户ID pageID:页面ID chanelID：板块的ID action：点击和注册 ...

SparkSQL 实现UV & PV计算

乔二爷

03-16

3284

背景前两天面试中遇到一个比较基础的计算UV &amp; PV 的问题。思路比较简单，最重要的是手写代码，平常我们都是在IDE 中编写代码，手写代码的时候大多是情况下都是使用IDE 的提示，遇到手写的时候，就算这种简单的代码也不一定写得出来。那天采取的一个思路是：先把思路写出来，然后，时间够再添代码进去。有时候确实一些函数拼不出来什么的，但是思路在，好过白卷。由上面的背景引出使用Spar...

使用sparksql开发pv,uv,二跳率

09-21

2917

uv：user views，count（distinct guid） pv：page views，count（url）二跳率：count（distinct case when pv>=2 then sessionid else null end) / count(distinct sessionid) import org.apache.spark.SparkConf import org

Spark Streaming实战对论坛网站动态行为pv，uv，注册人数，跳出率的多维度分析

小强签名设计的博客

07-06

6632

Spark【案例】——PV、UV、TopK

Tomorrow never comes

03-07

1079

/** * 计算pv log日志文件中每一行记录，为一次点击记录，也就是一次pv操作 */ object LocalPV { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("pv").setMaster("local[2]") val sc = new Sp...

SparkCore（10）：uv/pv实例

小蚯蚓的博客

10-25

405

1.统计样例 2013-05-19 13:00:00 http://www.taobao.com/17/?tracker_u=1624169&type=1 B58W48U4WKZCJ5D1T3Z9ZY88RU7QA7B1 http://hao.360.cn/ 1.196.34.243 NULL -1 2013-05-19 13:00:00 http://www.taobao.com/i...

spark sql 统计pv uv

08-09

Spark SQL可以用于统计PV和UV。引用中给出的示例代码展示了一个创建流作业的SQL语句，其中使用了loghub_scan作为源数据流，通过对user_ip字段进行计数，可以得到PV值，通过approx_count_distinct函数对user_ip进行去重计数，可以得到UV值。代码中还使用了窗口函数TUMBLING来按指定时间间隔进行划分，并将结果插入到redis_sink中。需要注意的是，实际配置中checkpointLocation和redis_host的值需要根据实际情况进行设置。 PV/UV统计是流式分析中常见的场景，可以用于网站的流量或热点分析，比如广告主可以通过PV值来估计广告网页的流量和广告收入。对于需要分析用户的网页点击行为的场景，可以使用UV统计。根据实际需求和数据源，可以调整代码中相应的配置项，例如checkpoint_location和其他参数。综上所述，使用Spark SQL可以方便地进行PV和UV的统计分析。123 #### 引用[.reference_title] - *1* *2* *3* [使用Spark Streaming SQL进行PV/UV统计](https://blog.csdn.net/w397090770/article/details/102645196)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}} ] [.reference_item] [ .reference_list ]