【大数据分析】基于Spark哔哩哔哩数据分析舆情推荐系统 b站（完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程）✅

最新推荐文章于 2024-09-13 21:50:01 发布

红队it

最新推荐文章于 2024-09-13 21:50:01 发布

阅读量1.2k

点赞数 26

分类专栏：数据分析可视化 Hive Spark 文章标签：分布式数据分析 spark 数据库 hive django pycharm

本文链接：https://blog.csdn.net/qq_64605578/article/details/142210272

版权

数据分析可视化同时被 3 个专栏收录

4 篇文章 1 订阅

订阅专栏

Hive

3 篇文章 0 订阅

订阅专栏

Spark

3 篇文章 0 订阅

订阅专栏

文章目录

【大数据分析】基于Spark哔哩哔哩数据分析舆情推荐系统 b站（完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程）✅

【大数据分析】基于Spark哔哩哔哩数据分析舆情推荐系统 b站（完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程）✅

源码获取方式在文章末尾

一、项目概述

该项目旨在基于Spark大数据处理框架，对哔哩哔哩平台的数据进行舆情分析和推荐系统的设计与实现。通过对海量视频、弹幕、评论、点赞等数据的采集和处理，项目将运用自然语言处理（NLP）、情感分析、推荐算法等技术，分析用户对热点事件、话题或视频的态度和情感倾向，并结合用户行为和兴趣，提供个性化的内容推荐。利用爬虫技术获取哔哩哔哩的相关数据，并使用Spark进行数据清洗、转换和存储。通过NLP技术对用户评论和弹幕进行情感分析，识别热点事件和用户情感倾向。通过分析用户的观看记录、点赞、收藏等行为，提取用户偏好和兴趣。基于用户的兴趣和舆情分析结果，构建个性化的推荐系统，向用户推荐相关内容。利用Spark Streaming对实现弹幕和评论进行分析，实现实时舆情监控与推荐。

二、研究意义

哔哩哔哩作为中国领先的二次元文化社区和视频平台，汇聚了大量的用户生成内容（UGC），如弹幕、评论、点赞等。通过对这些数据的舆情分析，能够更好地掌握公众对热门话题、事件的态度和意见，有助于平台及相关机构及时应对潜在的舆论危机，同时提升平台内容运营和用户体验的能力。传统的推荐系统主要基于用户的历史行为进行推荐，而舆情推荐系统则结合用户的行为与当前舆情态势，能够更加精准地推送符合用户当前兴趣和情感需求的内容。通过情感分析、热点话题分析等技术，推荐的内容不仅能满足用户的长期兴趣，还能根据热点实时调整，提高内容的相关性和吸引力。通过Spark等大数据处理工具的应用，项目展示了如何在大规模数据环境中进行高效的数据处理、分析和实时计算。此系统结合了分布式计算、实时数据处理与推荐算法，展示了大数据技术在社交平台中的具体应用场景，为其他类似平台的技术开发提供了参考和借鉴。

三、背景

哔哩哔哩（Bilibili）是中国领先的二次元文化社区和综合性视频平台，聚集了大量年轻用户，拥有丰富的用户生成内容（UGC），如视频、弹幕、评论、点赞等。随着平台用户量和数据规模的持续增长，如何通过对这些庞大的数据进行分析，以深入了解用户需求、优化内容推荐和提升用户体验，成为一个重要的研究课题。随着互联网和社交媒体的发展，舆情分析逐渐成为商业、政治、公共关系等领域的重要工具。舆情分析通过对公众在社交平台上发布的信息（如评论、帖子、新闻、弹幕等）进行分析，能够迅速捕捉热点话题、了解公众情感和态度变化。这种技术被广泛应用于政府监控、企业品牌管理、危机应对等领域。而在哔哩哔哩平台上，舆情分析能够帮助平台运营者及时掌握用户对特定内容的态度和情绪，为内容推荐和用户互动提供数据支持。随着数据规模的指数级增长，传统的数据处理方法已经无法满足海量数据的分析需求。Spark等大数据处理框架的出现，提供了高效的分布式计算能力，能够快速处理海量的实时和历史数据，成为处理社交媒体平台数据的理想选择。通过Spark对哔哩哔哩平台海量用户数据进行分析，可以实现高效的数据清洗、存储和处理，为舆情分析和推荐系统提供可靠的数据支持。

四、国内外研究现状

国外研究现状：

国外在大数据处理框架方面，Spark、Hadoop等技术体系已经被广泛应用于各类平台的数据分析工作中。Spark由于其强大的内存计算和分布式处理能力，在处理大规模社交媒体数据方面具有显著优势。像Netflix和LinkedIn等企业已将Spark作为其推荐系统和数据处理的核心技术平台，来进行实时的用户行为分析和内容推荐。

国内研究现状：

国内在大数据技术的应用方面，与国外的差距在逐步缩小，尤其是在处理海量数据、实时数据分析方面，国内的企业和研究机构已经能够独立研发出适应本土需求的大数据处理系统。以阿里巴巴为代表的企业推出了自研的分布式计算平台（如MaxCompute、Flink等），它们在处理电商平台、社交媒体平台上的用户数据时表现出色。与此同时，国内高校也在积极研究如何在社交媒体数据中挖掘用户行为模式，并通过分布式计算框架进行高效分析。

五、开发技术介绍

前端框架：HTML，CSS，JAVASCRIPT，Echats

后端：Django

大数据处理框架：Spark

数据存储：HDFS、Hive

编程语言：Python/Scala

自然语言处理：NLP、情感分析

数据可视化：Echarts

六、算法介绍

1.NLP舆情分析算法主要用于分析和理解社交媒体、新闻评论等文本数据中的情感倾向和公众情绪，以便帮助企业、政府或研究机构识别和监控舆情动向。以下是常用的NLP舆情分析算法的介绍：基于规则的情感分析方法通过构建情感词典，依据词语的情感极性来判断文本的情感倾向。常用的情感词典包括正面情感词和负面情感词。此方法简单高效，但需要对情感词典进行精心设计和维护。

情感词典法：
基于情感词典的算法使用预定义的情感词汇和规则，通过词典匹配来判断文本的情感倾向。典型的中文情感词典如“知网情感词典”或“复旦大学情感词典库”等。

流程：

分词：将输入的文本进行中文分词。
词性标注：识别出情感词、程度副词、否定词等。
通过预定义的规则，计算情感得分（正向/负向）。

优点：实现简单，不需要大量训练数据。

缺点：依赖于词典的全面性和准确性，对复杂句子处理能力有限。

2.基于用户的协同过滤（User-Based Collaborative Filtering）是一种推荐系统方法，通过找出与目标用户兴趣相似的其他用户，来推荐这些相似用户喜欢的物品。以下是基于用户的协同过滤的核心概念、计算方法和公式：

1. 基本原理

基于用户的协同过滤假设：如果用户A和用户B在过去对一组物品的评分相似，那么用户A可能会喜欢用户B喜欢的其他物品。

2. 相似用户的计算

首先，需要计算用户之间的相似度。常用的相似度度量包括：

皮尔逊相关系数（Pearson Correlation Coefficient）：

其中：

rikr_{ik}rik 和 rjkr_{jk}rjk 分别是用户 uiu_iui 和用户 uju_juj 对物品 kkk 的评分。
rˉi\bar{r}_irˉi 和 rˉj\bar{r}_jrˉj 分别是用户 uiu_iui 和用户 uju_juj 的平均评分。
IiI_iIi 和 IjI_jIj 分别是用户 uiu_iui 和用户 uju_juj 评分过的物品集合。

余弦相似度（Cosine Similarity）：

其中：

公式中的分子是用户 uiu_iui 和用户 uju_juj 在共同物品上的评分的点积。
分母是这两个用户在评分空间中的模长（即评分的平方和的平方根）。

七、数据库设计

DROP TABLE IF EXISTS `history`;
CREATE TABLE `history` (
  `id` int NOT NULL AUTO_INCREMENT,
  `videoId` varchar(255) NOT NULL,
  `count` int NOT NULL,
  `user_id` int NOT NULL,
  PRIMARY KEY (`id`),
  KEY `history_user_id_6457e0b2_fk_user_id` (`user_id`),
  CONSTRAINT `history_user_id_6457e0b2_fk_user_id` FOREIGN KEY (`user_id`) REFERENCES `user` (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=12 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;

DROP TABLE IF EXISTS `user`;
CREATE TABLE `user` (
  `id` int NOT NULL AUTO_INCREMENT,
  `username` varchar(255) NOT NULL,
  `password` varchar(255) NOT NULL,
  `createTime` date NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=3 DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_0900_ai_ci;