pyspark
qq_35482604
这个作者很懒,什么都没留下…
展开
-
Spark综合案例
# 需求1: 统计各省销售额# 需求2:TOP3销售省份中,有多少店铺达到过日销售额1000+# 需求3: TOP3省份中各个省份的平均订单价格# 需求4: TOP3省份中,各个省份的支付比例原创 2022-02-17 19:13:27 · 1340 阅读 · 1 评论 -
pyspark 第五章共享变量
from unittest import resultfrom pyspark import SparkConf,SparkContextimport json# /opt/module/spark/bin/spark-submit /opt/Code/broadcast.pyif __name__ == '__main__': conf = SparkConf().setAppName("WorldCount").setMaster("local[*]") sc = Spark..原创 2022-02-06 11:17:23 · 1127 阅读 · 0 评论 -
pyspark 搜索引擎日志分析
# coding:utf8import jieba# python /opt/Code/searchSouGou.pyif __name__ == '__main__': content = '小明硕士毕业于中国科学院计算所,后在清华大学深造' # 对切分后的关键词进行二次组合 result = jieba.cut(content,True) print(','.join(result)) # 仅切分出来词 result = jieba.cut(co.原创 2022-01-30 11:07:54 · 2248 阅读 · 0 评论 -
SparkSQL 函数的定义
if __name__ == '__main__': spark = SparkSession.builder.appName('create df').master('local[*]').\ config('spark.sql.shuffle.partition','2').\ getOrCreate() sc = spark.sparkContext rdd = sc..原创 2022-01-30 10:02:41 · 1199 阅读 · 0 评论