[Spark应用]-- 实现uv统计（使用内置函数）

最新推荐文章于 2024-08-28 10:00:00 发布

oo寻梦in记

最新推荐文章于 2024-08-28 10:00:00 发布

阅读量3.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Apache Spark 文章标签： spark 函数

本文链接：https://blog.csdn.net/high2011/article/details/51540505

Apache Spark 专栏收录该内容

137 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文展示了如何使用Spark SQL的内置函数countDistinct统计每日唯一用户（UV）。通过创建DataFrame，模拟用户访问日志数据，然后对数据进行分组并应用countDistinct函数，实现对用户ID的去重计数，最终输出每日的UV结果。

废话不多说，具体实现代码如下
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.IntegerType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.functions._
/**
*
*网站uv的统计
*
*/
object DailyUV {
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setMaster("local").setAppName("DailyUV")
val sc = new SparkContext(conf)
val