基于PySpark大数据分析/Python/Spark

链接: https://pan.baidu.com/s/1OlkwFEUfaEMOeM3ehD7OPg 密码: gxv5

很少见的基于pyspark的spark教程,比较方便带着大家入手spark,实现大数据分析!讲明一点,付费的,不过是最便宜的,不信可以自己去问问!

课程目录:


课程一:PySpark课程及环境准备
0101-为什么要学习PySpark编程
0102-ySpark编程的内容大纲
0103-Python介绍、Windows下2.7的安装及测试
0104-PyCharm安装、设置及创建工程和测试
0105-PySpark第三方包的安装配置
0106-基于Python的SparkCore编程模板
0107-解决Windows下开发HDFS相关警告
0108-并行化本地集合创建RDD及RDD初步使用

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
以下是一个基于 Spark 的电影数据分析的代码示例: ```python from pyspark.sql import SparkSession from pyspark.sql.functions import * # 创建 SparkSession spark = SparkSession.builder.appName("MovieAnalysis").getOrCreate() # 读取电影数据集 movies_df = spark.read.format("csv").option("header", "true").load("movies.csv") ratings_df = spark.read.format("csv").option("header", "true").load("ratings.csv") # 电影评分分析 ratings_count_df = ratings_df.groupBy("movieId").count() ratings_count_df.show() # 电影类型分析 genres_df = movies_df.select("genres") genres_df = genres_df.withColumn("genre", explode(split(col("genres"), "\|"))) genre_count_df = genres_df.groupBy("genre").count() genre_count_df.show() # 导演分析 directors_df = movies_df.select("movieId", "directors") ratings_directors_df = ratings_df.join(directors_df, ratings_df.movieId == directors_df.movieId, "left") ratings_directors_df = ratings_directors_df.drop(directors_df.movieId) ratings_directors_df = ratings_directors_df.groupBy("directors").agg(avg(col("rating")).alias("avg_rating")) ratings_directors_df.show() # 演员分析 actors_df = movies_df.select("movieId", "cast") ratings_actors_df = ratings_df.join(actors_df, ratings_df.movieId == actors_df.movieId, "left") ratings_actors_df = ratings_actors_df.drop(actors_df.movieId) ratings_actors_df = ratings_actors_df.groupBy("cast").agg(avg(col("rating")).alias("avg_rating")) ratings_actors_df.show() # 地区分析 countries_df = movies_df.select("movieId", "countries") ratings_countries_df = ratings_df.join(countries_df, ratings_df.movieId == countries_df.movieId, "left") ratings_countries_df = ratings_countries_df.drop(countries_df.movieId) ratings_countries_df = ratings_countries_df.groupBy("countries").agg(avg(col("rating")).alias("avg_rating")) ratings_countries_df.show() # 停止 SparkSession spark.stop() ``` 以上代码读取了两个电影数据集(movies.csv 和 ratings.csv),并使用 Spark 进行了电影评分、电影类型、导演、演员和地区等数据的分析。根据具体的数据集和分析需求,代码可能会有所不同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值