- JavaSpark | 算子
- JavaSpark | RDD实战:WordCount
- JavaSpark | RDD实战:统计网站 pv 和 uv
- JavaSpark | RDD实战:二次排序
- JavaSpark | RDD实战:分组top n
- JavaSpark | SparkSQL | 创建DataSet | UDF与UDAF | 开窗函数
1.pv 和 uv
PV 是网站分析的一个术语,用以衡量网站用户访问的网页的数量。对于广告主,PV 值可预期它可以带来多少广告收入。一般来说,PV 与来访者的数量成正比,但是 PV 并不直接决定页面的真实来访者数量,如同一个来访者通过不断的刷新页面,也可以制造出非常高的 PV。
1.1 什么是 PV 值?
PV(page view)即页面浏览量或点击量,是衡量一个网站或网页用户访问量。具体的说,PV 值就是所有访问者在 24 小时(0 点到 24 点)内看了某个网站多少个页面或某个网页多少次。PV 是指页面刷新的次数,每一次页面刷新,就算做一次 PV 流量。
度量方法就是从浏览器发出一个对网络服务器的请求(Request),网络服务器接到这个请求后,会将该请求对应的一个网页(Page)发送给浏览器,从而产生了一个 PV。那么在这里只要是这个请求发送给了浏览器,无论这个页面是否完全打开(下载完成),那么都是应当计为 1 个 PV。
1.2 什么是 UV 值?
UV(unique visitor)即独立访客数,指访问某个站点或点击某个网页的不同 IP 地址的人数。在同一天内,UV 只记录第一次进入网站的具有独立IP 的访问者,在同一天内再次访问该网站则不计数。UV 提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全面活动。
2. 代码实战
package com.shsxt.java_Test.core.demo;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java

本文介绍了PV(页面浏览量)和UV(独立访客数)的概念,并提供了使用JavaSpark进行网站pv和uv统计的实战指南。通过对网站访问数据的处理,展示了如何利用RDD进行流量分析。
最低0.47元/天 解锁文章
956

被折叠的 条评论
为什么被折叠?



