大数据专业毕业设计springboot基于Hadoop和Spark实现的音乐数据分析系统【远程+文档+源码】

本文链接：https://blog.csdn.net/angel_wdl/article/details/143112480

我们的毕设辅导团队由一群经验丰富、专业素质过硬的导师组成。他们来自于各个领域的专业人士，具备丰富的实践经验和深厚的学术背景。无论你的毕设是关于Python、Java、小程序、asp.net、PHP、nodejs还是其他领域，我们都能为你提供专业的指导和支持。

一、项目介绍：

计算机项目设计大数据源码辅导基于Hadoop和Spark实现的音乐数据分析系统-L16 1254_哔哩哔哩_bilibili计算机项目设计大数据源码辅导基于Hadoop和Spark实现的音乐数据分析系统-L16 1254, 视频播放量 35、弹幕量 0、点赞数 0、投硬币枚数 0、收藏人数 0、转发人数 1, 视频作者匠心IT学院官方, 作者简介，相关视频：javaweb实现的旅游旅行景点管理理系统实战教程计算机毕设项目源码学习参考课程手把手教学，计算机毕业设计源码毕设项目源代码之图书管理系统，计算机毕业设计源码毕设项目源码视频流浪动物救助和领养平台，计算机毕业设计源码毕设项目源码视频考试资料共享商城，计算机毕业设计源码毕设项目源码视频基于SSM的公司员工管理系统，去项目名的项目运行方式，计算机毕业设计源码毕设项目源代码之物流管理系统，计算机毕业设计源码毕设项目源代码之小学生课程资源网络云平台，微信小程序校园导航系统-计算机毕设java毕业设计项目源码-可定制-IT实战课堂，计算机毕业设计源码毕设项目源码视频基于SSM的农产品交易平台https://www.bilibili.com/video/BV1KA4beUEaG?t=102.1

《[含文档+PPT+源码等]精品springboot基于Hadoop和Spark实现的音乐数据分析系统》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、包运行成功以及课程答疑与微信售后交流群、送查重系统不限次数免费查重等福利！

数据库管理工具：phpstudy/Navicat或者phpstudy/sqlyog

后台管理系统涉及技术：

后台使用框架：Springboot

前端使用技术：Vue,HTML5,CSS3、JavaScript等

数据库：Mysql数据库

/error/404.png

下面是系统运行起来后的一些截图：

/error/404.png

二、项目大数据核心代码

import findspark
from pyspark.sql import SparkSession
from pyspark.sql.functions import *

findspark.init()

hadoop_url = 'hdfs://127.0.0.1:9000/{dir}/{file}'

spark = SparkSession.builder.appName("hr_job1").getOrCreate()



# 加载hr_data_extended
hr_data_extended = spark.read.option("quote", "\"").csv(hadoop_url.format(dir='hr/dataset', file='hr_data_extended.csv'), header=True)
# 数据清洗
# 字段为空时，填充为0
hr_data_extended = hr_data_extended.fillna(0)
# 某行格式不对时，删除该行
hr_data_extended = hr_data_extended.na.drop()
# 显示数据
hr_data_extended.show()
# 保存到hdfs
hr_data_extended.write.csv(hadoop_url.format(dir='hr/output', file='hr_data_extended'), header=True)

# 任务
firstname_count = hr_data_extended.groupBy('firstname').count().sort('count', ascending=False)
firstname_count.show()
# 修改列名
firstname_count = firstname_count.withColumnRenamed('firstname', 'name').withColumnRenamed('count', 'value1')
# 保存到hdfs
firstname_count.write.csv(hadoop_url.format(dir='hr/output', file='firstname_count'), header=True)

# 任务
lastname_count = hr_data_extended.groupBy('lastname').count().sort('count', ascending=False)
lastname_count.show()
# 修改列名
lastname_count = lastname_count.withColumnRenamed('lastname', 'name').withColumnRenamed('count', 'value1')
# 保存到hdfs
lastname_count.write.csv(hadoop_url.format(dir='hr/output', file='lastname_count'), header=True)

# 任务
department_count = hr_data_extended.groupBy('department').count().sort('count', ascending=False)
department_count.show()
# 修改列名
department_count = department_count.withColumnRenamed('department', 'name').withColumnRenamed('count', 'value1')
# 保存到hdfs
department_count.write.csv(hadoop_url.format(dir='hr/output', file='department_count'), header=True)

# 任务
jobtitle_count = hr_data_extended.groupBy('jobtitle').count().sort('count', ascending=False)
jobtitle_count.show()
# 修改列名
jobtitle_count = jobtitle_count.withColumnRenamed('jobtitle', 'name').withColumnRenamed('count', 'value1')
# 保存到hdfs
jobtitle_count.write.csv(hadoop_url.format(dir='hr/output', file='jobtitle_count'), header=True)

# 任务
projectsinvolved_count = hr_data_extended.groupBy('projectsinvolved').count().sort('count', ascending=False)
projectsinvolved_count.show()
# 修改列名
projectsinvolved_count = projectsinvolved_count.withColumnRenamed('projectsinvolved', 'name').withColumnRenamed('count', 'value1')
# 保存到hdfs
projectsinvolved_count.write.csv(hadoop_url.format(dir='hr/output', file='projectsinvolved_count'), header=True)