使用pyspark统计用户访问(uv)TOP_N

最新推荐文章于 2020-06-15 16:41:07 发布

Cesion_lin

最新推荐文章于 2020-06-15 16:41:07 发布

阅读量1.2k

点赞数 2

分类专栏：大数据 spark pyspark 文章标签： spark pyspark 用户访问统计 TOP_N

本文链接：https://blog.csdn.net/qq_27536697/article/details/101017855

版权

大数据同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

spark

2 篇文章 0 订阅

订阅专栏

pyspark

2 篇文章 0 订阅

订阅专栏

使用pyspark统计用户访问TOP_N

说明:使用pyspark库uv的TOP_N实现

一、数据说明

用户访问数据,IP地址,URL

二、代码实现

导入pyspark及环境配置

import os
from pyspark import SparkContext
import time
JAVA_HOME='/root/bigdata/jdk'
#向系统环境变量中添加 JAVA_HOME路径
os.environ['JAVA_HOME']=JAVA_HOME
PYSPARK_PYTHON = "/miniconda2/envs/py365/bin/python"
# PYSPARK使用Python位置
os.environ["PYSPARK_PYTHON"] = PYSPARK_PYTHON
# PYSPARK驱动使用Python的位置
os.environ["PYSPARK_DRIVER_PYTHON"] = PYSPARK_PYTHON

启动处理

if __name__ == '__main__':
    #创建sparkcontext 参数1 spark集群的master地址 参数2 应用的名字
        sc = SparkContext('local','pvcount')
        rdd1 = sc.textFile('file:///root/tmp/data/access.log',4)
        # 获取每一行后,分割每一行,过滤掉小于10列的行并使用第10的位置为key添加元组
        rdd2 = rdd1.map(lambda x:x.split(' ')).filter(lambda x : len(x)>10).map(lambda x:(x[10],1))
        # 对2进行累计并排序
        rdd3 = rdd2.reduceByKey(lambda a,b:a+b).sortBy(lambda x:x[1],ascending=False).filter(lambda x : len(x[0])>10)
        for r in rdd3.take(10):
                print(r)
        sc.stop()

三、总结

代码比较简单,但是实际测试没有问题,可以参考.

Cesion_lin

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
使用pyspark统计用户访问(uv)TOP_N

使用pyspark统计用户访问TOP_N说明:使用pyspark库uv的TOP_N实现一、数据说明用户访问数据,IP地址,URL二、代码实现导入pyspark及环境配置import osfrom pyspark import SparkContextimport timeJAVA_HOME='/root/bigdata/jdk'#向系统环境变量中添加 JAVA_HOM...
复制链接

扫一扫

专栏目录