基于python+大数据 hadoop+spark+hive的b站热门视频舆情数据分析新浪微博评论分析系统（附源码+包调试运行好+开发文档）

最新推荐文章于 2024-09-27 16:46:59 发布

雨晨源码

最新推荐文章于 2024-09-27 16:46:59 发布

阅读量1.2k

点赞数 31

分类专栏： Python实战项目集文章标签：大数据 hadoop python 爬虫计算机毕设

本文链接：https://blog.csdn.net/qq_1445749146/article/details/142488025

版权

Python实战项目集专栏收录该内容

26 篇文章 30 订阅

订阅专栏

🔥作者：雨晨源码🔥
💖简介：java、微信小程序、安卓；定制开发，远程调试代码讲解，文档指导，ppt制作💖
精彩专栏推荐订阅：在下方专栏👇🏻👇🏻👇🏻👇🏻
Java精彩实战毕设项目案例
 小程序精彩项目案例
 Python实战项目案例

💕💕文末获取源码

本次文章主要是介绍基于python+大数据 hadoop+spark+hive的b站热门视频数据可视化分析系统的功能，

1、b站热门视频分析系统-前言介绍

1.1背景

随着互联网和多媒体技术的飞速发展，短视频平台迅速崛起，吸引了大量用户。其中，B站作为一个内容丰富、涵盖多种领域的社交视频平台，用户数量持续攀升，且其视频内容的质量和多样性深受广大年轻用户的喜爱。在这样的大背景下，用户希望能够更方便快捷地了解热门视频及UP主的相关信息，管理员则需要更高效地管理视频数据和用户反馈。同时，大数据技术的广泛应用为视频数据的抓取、存储、分析及可视化提供了技术支持。为了解决这些问题，基于Python、大数据技术（Hadoop、Spark、Hive）以及前后端分离的B/S架构，开发一个B站热门视频数据可视化分析系统成为一种现实需求，该系统不仅可以满足用户对热门视频的兴趣，同时为管理员提供系统化的数据管理及分析工具。。

1.2课题功能、技术

本系统的主要功能和技术包括用户和管理员两个角色的功能模块。用户模块包含用户登录注册、查看系统首页、个人中心管理、UP主排行榜浏览以及投诉举报功能；而管理员模块则涉及UP主排行榜管理（依赖于爬虫技术抓取B站热门视频和UP主信息）、系统管理（如轮播图、公告、投诉处理和系统简介的管理）、以及我的信息大屏分析（包括UP发布数量统计、视频类型统计、UP主词云图、排行榜总数、视频数据统计、发布地理位置统计、排行榜TOP10等）。系统的后台使用Python语言开发，基于Django框架构建，爬虫数据通过Hadoop分布式存储，利用Spark进行数据处理，数据分析结果存储在Hive数据库中，最终通过Vue前端框架实现数据的可视化展示，整个系统的数据存储和交互通过MySQL数据库进行管理。。

1.3 意义

本课题的意义在于，结合大数据处理和可视化技术，通过开发一个实用且交互性强的B站热门视频数据分析系统，为普通用户和管理员提供了便捷的服务入口和高效的数据管理工具。用户可以通过该系统获取及时、准确的B站热门视频及UP主信息，并根据自己的兴趣做出决策；管理员则能通过数据爬虫及大数据分析技术，更加智能、便捷地进行视频数据的管理和分析工作。此外，系统大屏的数据可视化分析模块，不仅提升了数据展示的美观度和易用性，还为后续的系统扩展和维护提供了数据支持。这不仅提高了用户体验，也推动了大数据在短视频领域的应用和发展。。

2、b站热门视频分析系统-研究内容

1、数据采集与清洗：利用Python编写网络爬虫，定期抓取B站热门视频的相关数据，如视频标题、播放量、点赞数等。使用BeautifulSoup或Scrapy库进行数据解析，再用Pandas库进行数据清洗，去除重复和异常数据，保证数据的一致性和准确性。
2、数据存储：将清洗后的数据存储到Hadoop的HDFS上，利用Hive的SQL-like查询语言建立数据仓库，对数据进行分类和索引，便于后续的分布式处理和高效查询。
3、数据处理与分析：使用Spark进行数据处理，通过Spark SQL执行复杂的数据查询和分析任务，提取视频数据的洞察，如最受欢迎的视频类型、用户互动行为等。
4、数据可视化展示：利用Python的数据可视化库（如Matplotlib、Seaborn）将分析结果转换为图表和图形，展示热门视频排行榜、播放量趋势等，使数据更直观易懂。
5、系统集成与部署：采用Django框架构建后台管理系统，整合数据采集、处理、分析流程，实现自动化任务调度。将前端可视化界面与后端服务结合，部署到服务器上，使用Tomcat作为Web服务器，确保系统的稳定性和可扩展性。

3、b站热门视频分析系统-开发技术与环境

1、亮点（爬虫、大屏可视化）

2、技术分析：

开发语言：Python
后端框架：Django
爬虫大数据:hadoop+spark+hive
前端：Vue
数据库：MySQL

3、开发工具：pycharm

4、b站热门视频分析系统-功能介绍

2个角色：用户/管理员（亮点：爬虫、大屏可视化）

(1) 用户：登录注册、系统首页、个人中心、查看up排行版、投诉举报

(2) 管理员：排行版管理(爬虫)、系统管理（轮播图管理、通知公告管理、投诉举报管理、系统简介管理）、我的信息大屏分析（UP发布数量统计、类型统计、UP主词云图、排行榜总数、视频数据统计、发布位置统计、排行榜列表TOP10）
在这里插入图片描述

5、b站热门视频分析系统成果展示

5.1演示视频

计算机大数据毕业设计-基于python+大数据hadoop+spark+hive的b站热门视频分析 b站舆情分析新浪微博评评论分析系统-项目实战教学视频

5.2演示图片

1、用户端页面：
☀️登录☀️
在这里插入图片描述

☀️首页☀️
在这里插入图片描述

☀️排行榜☀️
在这里插入图片描述

☀️视频详情☀️
在这里插入图片描述

☀️个人中心☀️
在这里插入图片描述

2、管理员端页面：

☀️大屏可视化统计☀️
在这里插入图片描述

☀️排行榜☀️
在这里插入图片描述

☀️系统管理☀️
在这里插入图片描述

b站热门视频分析系统-代码展示

1.数据爬虫【代码如下（示例）：】

class PaihangbangSpider(scrapy.Spider):
    name = 'paihangbangSpider'
    spiderUrl = 'https://api.bilibili.com/x/web-interface/ranking/v2?rid=0&type=all'
    start_urls = spiderUrl.split(";")
    protocol = ''
    hostname = ''
    realtime = False


    def __init__(self,realtime=False,*args, **kwargs):
        super().__init__(*args, **kwargs)
        self.realtime = realtime=='true'


    # 列表解析
    def parse(self, response):
        _url = urlparse(self.spiderUrl)
        self.protocol = _url.scheme
        self.hostname = _url.netloc
        plat = platform.system().lower()
        if not self.realtime and (plat == 'linux' or plat == 'windows'):
            connect = self.db_connect()
            cursor = connect.cursor()
            if self.table_exists(cursor, '57cj988c_paihangbang') == 1:
                cursor.close()
                connect.close()
                self.temp_data()
                return
        data = json.loads(response.body)
        try:
            list = data["data"]["list"]
        except:
            pass
        for item in list:
            fields = PaihangbangItem()

2.数据清洗【代码如下（示例）：】

  

    # 详情解析
    def detail_parse(self, response):
        fields = response.meta['fields']
        return fields

    # 去除多余html标签
    def remove_html(self, html):
        if html == None:
            return ''
        pattern = re.compile(r'<[^>]+>', re.S)
        return pattern.sub('', html).strip()

    # 数据库连接
    def db_connect(self):
        type = self.settings.get('TYPE', 'mysql')
        host = self.settings.get('HOST', 'localhost')
        port = int(self.settings.get('PORT', 3306))
        user = self.settings.get('USER', 'root')
        password = self.settings.get('PASSWORD', '123456')

        try:
            database = self.databaseName
        except:
            database = self.settings.get('DATABASE', '')

        if type == 'mysql':
            connect = pymysql.connect(host=host, port=port, db=database, user=user, passwd=password, charset='utf8')
        else:
            connect = pymssql.connect(host=host, user=user, password=password, database=database)
        return connect

    # 断表是否存在
    def table_exists(self, cursor, table_name):
        cursor.execute("show tables;")
        tables = [cursor.fetchall()]
        table_list = re.findall('(\'.*?\')',str(tables))
        table_list = [re.sub("'",'',each) for each in table_list]

        if table_name in table_list:
            return 1
        else:
            return 0