大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统微博预警系统微博数据分析可视化大屏微博爬虫微博预测系统机器学习深度学习人工智能计算机毕业设计

最新推荐文章于 2025-02-13 10:08:47 发布

B站计算机毕业设计大学

最新推荐文章于 2025-02-13 10:08:47 发布

阅读量1.3k

点赞数 20

文章标签：大数据 hadoop 人工智能 hive spark 推荐算法知识图谱

本文链接：https://blog.csdn.net/spark2022/article/details/137057879

版权

本文探讨了在互联网快速发展的背景下，如何利用深度学习技术改进传统的微博数据分析方法，以提取有价值的信息和趋势预测。研究涉及从数据采集、清洗、到利用Hive和Spark进行离线和实时分析，以及使用深度学习算法进行个性化推荐和流量预测。项目还涵盖了数据可视化和前后端系统的开发，旨在为企业和学术研究提供新的工具和洞察力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

研究背景

随着互联网的快速发展，社交媒体平台如微博等逐渐成为人们表达观点、分享信息、交流互动的主要渠道。每天有大量的用户生成内容（UGC）被发布到微博上，这其中蕴含了丰富的信息和社会动态。如何有效地对这些数据进行处理和分析，提取出有价值的信息和趋势预测，成为了一个重要的问题。

传统的微博数据分析方法往往基于人工统计和简单的文本分析，难以处理大规模、复杂的数据，也无法实现精准的趋势预测。近年来，深度学习技术在自然语言处理（NLP）、图像识别、语音识别等领域取得了显著的成果，为处理微博这种富含文本信息的数据提供了新的解决方案。

意义

理论意义：本研究将深化对社交媒体数据特性的理解，丰富和发展数据挖掘和文本分析的理论和方法。同时，通过深度学习技术对微博数据的处理和分析，可以进一步挖掘用户行为模式、观点倾向、话题热点等，为社交媒体研究提供新的视角和工具。
实践意义：对于企业和政府机构来说，通过本系统的分析和预测，可以更好地了解公众的意见和态度，及时发现和引导舆情，优化产品和服务。同时，对于学术研究来说，本系统可以提供大量的实证数据和分析结果，推动社会科学和信息科学的发展。

二、论文（设计）的主要内容

（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；

（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；

（三）使用hive数仓技术建表建库，导入.csv数据集；

（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;

（五）统计指标使用sqoop导入mysql数据库；

（六）使用Flask+echarts进行可视化大屏开发；

（七）使用机器学习、深度学习的算法进行个性化微博推荐；

（八）使用卷积神经网络KNN、CNN实现热搜话题流量预测；

（九）搭建springboot+vue.js前后端分离web系统进行个性化推荐界面、话题流量预测界面、知识图谱等实现；

三、论文（设计）进度安排

2023.09.01—2023.09.28: 收集检索微博数据分析、预测算法相关知识和资料，进行需求分析、学习研究技能；
2023.10.07—2023.10.31：完成开题报告，进行开题答辩；
2024.11.01—2024.02.09：分析系统应完成的功能，完成概要设计；
2024.02.19—2024.03.20：初步完成系统分析与设计；系统开发，测试。
2024.03.21—2024.04.15：资料整合、论文定稿，准备迎接学术不端检测，
2024.04.16—2024.04.30：撰写 PPT，准备参加答辩；

7、2024.05.01—2024.05.10：完成毕业答辩，提交所有毕业论文的数据源、图表、论文；

核心代码分享如下，可用于构建图谱：

# -*- codeing = utf-8 -*-
# 创建图谱专用的json文件
#
import numpy as np
import pandas as pd
import json
from db import db_util

d = db_util()
db, cursor = d.get_conn()

def build():
    s_dict = {}
    t_dict = {}
    ret = []

    ind1 = 10000
    ind2 = 20000
    ind3 = 30000
    rind = 900000

    sql = 'select  *  from  tb_article'
    df = pd.read_sql(sql, con=db)
    for index, row in df.iterrows():

        comment = row['comment']
        username = row['username']

        if comment not in s_dict:
            ind2 = ind2 + 1
            s_dict[comment] = ind2
            index2 = ind2
        else:
            index2 = s_dict[comment]

        if username not in t_dict:
            ind3 = ind3 + 1
            t_dict[username] = ind3
            index3 = ind3
        else:
            index3 = t_dict[username]

        properties = {"name": row['title'], 'shares': row['shares'],  'comments':row['comments']}
        start = {'identity': index, 'labels':['话题'], 'properties':properties}
        end = {'identity': index2, 'labels':['评论'], 'properties':{"name": comment}}
        relationship = {"identity": rind, "start": index,"end": index2,
                        "type": "type", "properties": {"name": "评论"}}
        rind = rind + 1
        segments = []
        segments.append(dict(start=start, relationship=relationship, end=end))

        end = {'identity': index3, 'labels': ['用户名'], 'properties': {"name": username}}
        relationship = {"identity": rind, "start": index, "end": index3,
                        "type": "type", "properties": {"name": "用户"}}
        rind = rind + 1
        segments.append(dict(start=start, relationship=relationship, end=end))

        p = dict(segments=segments, length=1.0)
        ret.append(dict(p=p, score=2))

    json_str = json.dumps(ret, ensure_ascii=False)
    with open('test.json', 'w', encoding='utf8') as f2:
        # ensure_ascii=False才能输入中文，否则是Unicode字符
        # indent=2 JSON数据的缩进，美观
        json.dump(ret, f2, ensure_ascii=False, indent=2)
    print(json_str)
    print("end..")

if __name__ == '__main__':
    build()