Spark抖音短视频数据分析可视化系统 Hadoop+Hive 机器学习线性回归预测算法情感分析舆情分析爬虫毕业设计✅

源码之家

于 2025-04-20 22:32:22 发布

阅读量1k

点赞数 30

分类专栏：毕业设计 3375686806 3548885153 文章标签： hadoop spark 抖音短视频毕业设计机器学习 hive

本文链接：https://blog.csdn.net/2201_75772776/article/details/147376890

版权

毕业设计同时被 3 个专栏收录

364 篇文章

订阅专栏

3375686806

46 篇文章

订阅专栏

3548885153

45 篇文章

订阅专栏

博主介绍：✌全网粉丝50W+，前互联网大厂软件研发、集结硕博英豪成立软件开发工作室，专注于计算机相关专业项目实战6年之久，累计开发项目作品上万套。凭借丰富的经验与专业实力，已帮助成千上万的学生顺利毕业，选择我们，就是选择放心、选择安心毕业✌
> 🍅想要获取完整文章或者源码，或者代做，拉到文章底部即可与我联系了。🍅

点击查看作者主页，了解更多项目！

🍅感兴趣的可以先收藏起来，点赞、关注不迷路，大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助同学们顺利毕业。🍅

1、毕业设计：2025年计算机专业毕业设计选题汇总（建议收藏）✅

2、最全计算机专业毕业设计选题大全（建议收藏）✅

1、项目介绍

技术栈：
大数据技术、Hadoop +Spark +Hive、 Python语言 Echarts可视化机器学习线性回归预测算法 SnowNLP情感舆论分析 MySQL数据库 requests爬虫技术

Spark抖音短视频数据分析可视化系统 Hadoop+Hive 机器学习线性回归预测算法情感分析舆情分析爬虫毕业设计

2、项目界面

（1）首页—数据概况
在这里插入图片描述

（2）粉丝情况分析

在这里插入图片描述

（3）评论数据分析
在这里插入图片描述

（4）情感分析舆情分析

在这里插入图片描述
（5）词云图分析

（6）地址信息分析—中国地图分布

（7）视频评论数据

在这里插入图片描述

（8）预测------机器学习线性回归预测算法
在这里插入图片描述

（9）注册登录

在这里插入图片描述
（10）数据采集

在这里插入图片描述

（11）后台数据管理
在这里插入图片描述

3、项目说明

摘要
本论文基于Spark对抖音数据进行可视化分析，解决传统数据处理与分析方式的效率和准确性问题。随着社交平台和短视频行业的快速发展，海量数据的产生使得信息的实时处理和智能分析变得更加迫切。传统行业依赖人工分析和静态报告，难以实时应对动态变化，且数据处理效率低，分析结果不够精准。
该系统面向抖音平台用户与管理员，前端使用Echarts进行数据可视化，后端采用Python与Spark框架，数据库使用Hive，支持大规模数据的快速处理与分析。系统主要功能包括用户评论、分布地区、粉丝情况分析，舆论情感分析、视频与评论词云图生成，点赞热度预测等。管理员功能则包括视频数据、评论数据分析、粉丝类别和排行榜、点赞率表等数据管理与分析功能，同时提供认证和授权机制保障系统安全性。

关键词：抖音数据；Spark；数据可视化；线性回归预测

本论文研究了基于Spark的抖音数据可视化分析系统的设计与实现，主要围绕数据的采集、分析与预测等核心功能展开。论文首先明确了研究背景与目的，介绍了当前抖音等短视频平台产生的海量数据及其分析的重要性。为了有效分析这些数据，论文采用了先进的大数据处理技术，包括Python语言、Flask框架、Spark框架、Hadoop与Hive数据库等，这些技术能够高效地支持大规模数据的处理、存储和分析。此外，论文还提出了多种数据分析与建模方法，如线性回归预测算法和SnowNLP情感分析技术，旨在为用户提供精准的内容分析、预测结果及情感倾向等信息。系统的设计过程注重了功能需求与技术可行性分析，确保了在技术实现过程中，系统能够满足用户和管理员的不同需求，且在性能、可操作性及市场需求等方面具备一定的优势。
在系统设计与实现部分，论文详细阐述了系统的整体架构和各模块的功能设计与实现过程。系统通过四个主要模块实现了从数据获取到结果展示的完整流程。数据采集模块通过爬虫技术实现了抖音平台视频、评论及用户数据的实时获取，并结合数据清洗与预处理步骤。数据分析模块结合情感分析和词云图等可视化技术，使得用户能够清晰地了解视频评论的舆情态势。数据预测模块基于线性回归与其他算法，对点赞热度和视频表现等进行未来趋势预测。系统测试部分通过多种测试用例验证了各模块的稳定性和准确性，保证了系统能够高效地为用户提供可靠的数据支持。总体而言，本系统在实际应用中具有较强的实用性和前瞻性，为未来的短视频数据分析提供了有价值的技术参考与实践经验。

4、核心代码

# coding:utf8

#spark导包
from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.functions import count
from pyspark.sql.functions import monotonically_increasing_id
from pyspark.sql.types import StructType,StructField,IntegerType,StringType,FloatType
from pyspark.sql.functions import col,sum,when
from pyspark.sql.functions import desc,asc

if __name__ == '__main__':
    #构建
    spark = SparkSession.builder.appName("sparkSQL").master("local[*]").\
        config("spark.sql.shuffle.partitions", 2). \
        config("spark.sql.warehouse.dir", "hdfs://node1:8020/user/hive/warehouse"). \
        config("hive.metastore.uris", "thrift://node1:9083"). \
        enableHiveSupport().\
        getOrCreate()

    #通过sparkContext对象处理数据
    sc = spark.sparkContext

    #读取数据表
    videodata = spark.read.table('videodata')
    commentdata = spark.read.table('commentdata')
    #
    # videodata.show()
    # commentdata.show()

    #需求一 IP地址
    #addres为组
    result1 = commentdata.groupby("address").count()

    #将数据转为df
    df = result1.toPandas()

    # print(df)
    #sql
    # sql
    result1.write.mode("overwrite"). \
        format("jdbc"). \
        option("url", "jdbc:mysql://localhost:3306/bigdata?useSSL=false&useUnicode=true&charset=utf8"). \
        option("dbtable", "addressum"). \
        option("user", "root"). \
        option("password", "root"). \
        option("encoding", "utf-8"). \
        save()

    # hive
    result1.write.mode("overwrite").saveAsTable("addressum", "parquet")
    spark.sql("select * from addressum").show()

    #需求二:点赞收藏分析
    top10 = videodata.select("likeCount","collectCount","description")\
        .orderBy(F.desc("likeCount"))\
        .limit(10)

    result2 = top10.withColumn("ratio",top10["collectCount"]/top10["likeCount"])


    # sql
    result2.write.mode("overwrite"). \
        format("jdbc"). \
        option("url", "jdbc:mysql://localhost:3306/bigdata?useSSL=false&useUnicode=true&charset=utf8"). \
        option("dbtable", "likerate"). \
        option("user", "root"). \
        option("password", "root"). \
        option("encoding", "utf-8"). \
        save()

    # hive
    result2.write.mode("overwrite").saveAsTable("likerate", "parquet")
    spark.sql("select * from likerate").show()

    #需求三: 粉丝数量区间
    videodata_df = videodata.withColumn("fansRange",
                                        when(videodata["fansCount"] < 100,"小于100")
                                        .when((videodata["fansCount"]>=100)&(
                                            videodata["fansCount"]<1000 ),"100-1000")
                                        .when((videodata["fansCount"]>=1000)&(
                                            videodata["fansCount"]<10000 ),"1000-10000")
                                        .when((videodata["fansCount"]>=10000)&(
                                            videodata["fansCount"]<100000 ),"10000-100000")
                                        .when(videodata["fansCount"] >= 100000,"大于100000")
                                        .otherwise("未知"))
    result3 = videodata_df.groupby("fansRange").count()

    # sql
    result3.write.mode("overwrite"). \
        format("jdbc"). \
        option("url", "jdbc:mysql://localhost:3306/bigdata?useSSL=false&useUnicode=true&charset=utf8"). \
        option("dbtable", "fanscategory"). \
        option("user", "root"). \
        option("password", "root"). \
        option("encoding", "utf-8"). \
        save()

    # hive
    result3.write.mode("overwrite").saveAsTable("fanscategory", "parquet")
    spark.sql("select * from fanscategory").show()

    #需求四:粉丝最多博主TOP

    videodata_df = spark.table("videodata").select("username","fansCount")

    #降序排列 去重
    sorted_df = videodata_df.orderBy(col("fansCount").desc()).drop_duplicates(["username"])

    top_ten_df = sorted_df.limit(10)

    # sql
    top_ten_df.write.mode("overwrite"). \
        format("jdbc"). \
        option("url", "jdbc:mysql://localhost:3306/bigdata?useSSL=false&useUnicode=true&charset=utf8"). \
        option("dbtable", "fansTop"). \
        option("user", "root"). \
        option("password", "root"). \
        option("encoding", "utf-8"). \
        save()

    # hive
    top_ten_df.write.mode("overwrite").saveAsTable("fansTop", "parquet")
    spark.sql("select * from fansTop").show()


    #需求五: 评论与分享
    videodata_df2 = spark.table("videodata").select("commentCount","shareCount","description")

    sorted_df2 = videodata_df2.orderBy(videodata_df2["commentCount"].desc())

    top_ten_df2 = sorted_df2.limit(10)

    # sql
    top_ten_df2.write.mode("overwrite"). \
        format("jdbc"). \
        option("url", "jdbc:mysql://localhost:3306/bigdata?useSSL=false&useUnicode=true&charset=utf8"). \
        option("dbtable", "commentTop"). \
        option("user", "root"). \
        option("password", "root"). \
        option("encoding", "utf-8"). \
        save()

    # hive
    top_ten_df2.write.mode("overwrite").saveAsTable("commentTop", "parquet")
    spark.sql("select * from commentTop").show()