计算机毕业设计hadoop+spark+hive漫画推荐系统动漫视频推荐系统漫画分析可视化大屏漫画爬虫漫画推荐系统漫画爬虫知识图谱大数据-CSDN博客

本文链接：https://blog.csdn.net/spark2022/article/details/140405309

课题名称

基于hadoop+spark的漫画推荐与可视化系统

课题类型

设计

课题性质

结合实际

课题来源

自拟

横、纵向项目名称

无

项目编号

无

项目来源

无

导师姓名

黄亮

职称

有否科研背景

有

有否实际工程背景

否

所在单位

数学与计算机学院

所学专业

上机时数

384（小时）

目的要求

数据处理和分析：利用Hadoop和Spark的大数据处理能力，对大量的漫画数据进行处理和分析，包括用户行为数据、漫画内容数据等，以提取有用的信息。
用户行为分析：通过对用户行为数据的分析，包括浏览、收藏、评价、分享等，挖掘用户的兴趣和需求，为推荐系统提供依据。
漫画数据分析：对漫画内容进行深度分析，以提取其特征和关键信息，为推荐和可视化提供支持。
推荐系统：基于用户行为分析和漫画内容分析的结果，构建一个高效的推荐系统，向用户推荐他们可能感兴趣的漫画作品。
可视化系统：通过可视化的方式，将处理和分析的结果展示出来，包括用户行为分析结果、漫画内容分析结果等，以帮助用户更好地理解和分析数据。
实时推荐：利用Spark的实时处理能力，实现实时推荐，能够及时向用户推荐他们可能感兴趣的漫画作品。
性能优化：在整个系统的设计和实现过程中，需要考虑性能的优化，包括数据处理速度、推荐准确率、系统响应时间等。
隐私保护：对用户数据进行脱敏处理，保护用户隐私。
系统可扩展性：在设计时考虑系统的可扩展性，以便在未来的需求变化或数据增长时能够灵活地扩展系统。
安全性：确保系统的安全性，包括数据安全、系统安全和用户隐私保护等方面。

主要内容

前台系统：漫画推荐(提供四种算法模型分别实现，协同过滤算法的基于用户+基于物品、神经网络混合推荐算法、SVD)、漫画视频流量预测(卷积神经网络/线性回归算法进行预测)、漫画视频查询、漫画视频在线观看、模拟VIP充值观看(支付宝沙箱支付)、通过短信验证码修改密码、LSTM情感分析模型分析用户评论等；
后台系统：用户管理、漫画视频管理、评论管理、订单管理、日志管理、权限管理、视频知识图谱(neo4j图数据库实现)等；
可视化大屏系统：热门漫画视频分类、热门漫画话题饼图、漫画分享量Top10、每日漫画视频播放量折线图、漫画词云、漫画投币量排行榜等；
爬虫：Python的selenium框架采集B站/知音漫客的漫画视频、评论等数据集；

预期

目标

（一）Selenium自动化Python爬虫工具采集漫画视频等约10万条存入.csv文件作为数据集；

（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；

（三）使用hive数仓技术建表建库，导入.csv数据集；

（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;

（五）统计指标使用sqoop导入mysql数据库；

（六）使用Flask+echarts进行可视化大屏开发；

（七）使用机器学习、深度学习的算法进行个性化漫画视频推荐；

（八）使用卷积神经网络KNN、CNN实现漫画视频流量预测；

（九）搭建springboot+vue.js前后端分离web系统进行个性化推荐界面、漫画视频流量预测界面、知识图谱等实现；

教研室审查小组意见

本课题能否满足综合训练学生的教学要求

课题中有无基本工程训练内容，份量多大（限于理工专业）

本课题的要求、任务、内容是否明确、具体

进行本课题现有实施条件是否具备

工作量是否饱满，课题难度是否适中

进行本课题尚缺的条件本单位能否解决

对本课题的评审结论：

教研室主任（签字）：

20 年月日

院系审定意见

院长（系主任）（签字）：

20 年月日

核心算法代码分享如下：

import csv

import pymysql
import requests
connect = pymysql.connect(host="bigdata",port=3306, user="root",
                                           password="123456", database="hive_zymk")

cur = connect.cursor()
cur.execute("select * from tb_zymk " )
rv = cur.fetchall()
lines=0
for result in rv:
    id=result[0]
    title=result[1]
    update_times=result[2]
    tags=result[3]
    content=result[4]
    readings=result[5]
    subscribes=result[6]
    rewards=result[7]
    monthtickets=result[8]
    recommends=result[9]
    comments=result[10]
    scores=result[11]
    author=result[12]
    zps=result[13]
    ctime=result[14]
    img=result[15]
    url=result[16]

    #title字段去掉特殊字符
    title = title.strip().replace(',', '，').replace('"', '').replace("'", '').replace("\n", '').replace('\r', '').replace('\t', '')
    # 内容字段去掉特殊字符
    content = content.strip().replace(',', '，').replace('"', '').replace("'", '').replace("\n", '').replace('\r', '').replace('\t', '')
    #zps
    zps = zps.strip().replace(',', '，').replace('"', '').replace("'", '').replace("\n", '').replace('\r', '').replace('\t', '')
    # 阅读量替换汉字数值入亿 万
    temp_readings=readings
    if '亿' in readings:
        temp_readings=float(readings.replace('亿',''))*100000000
    elif '万' in readings:
        temp_readings = float(readings.replace('万', '')) * 10000
    readings = str(int(temp_readings))

    #订阅量subscribes
    temp_subscribes=subscribes
    if '亿' in subscribes:
        temp_subscribes=float(subscribes.replace('亿',''))*100000000
    elif '万' in subscribes:
        temp_subscribes = float(subscribes.replace('万', '')) * 10000
    subscribes = str(int(temp_subscribes))

    #打赏rewards
    temp_rewards=rewards
    if '亿' in rewards:
        temp_rewards=float(rewards.replace('亿',''))*100000000
    elif '万' in rewards:
        temp_rewards = float(rewards.replace('万', '')) * 10000
    rewards = str(int(temp_rewards))

    #monthtickets月票
    temp_monthtickets=monthtickets
    if '亿' in monthtickets:
        temp_monthtickets=float(monthtickets.replace('亿',''))*100000000
    elif '万' in monthtickets:
        temp_monthtickets = float(monthtickets.replace('万', '')) * 10000
    monthtickets = str(int(temp_monthtickets))

    #recommends 推荐数
    temp_recommends=recommends
    if '亿' in recommends:
        temp_recommends=float(recommends.replace('亿',''))*100000000
    elif '万' in recommends:
        temp_recommends = float(recommends.replace('万', '')) * 10000
    recommends = str(int(temp_recommends))


    #ctime需要去掉空格
    ctime=ctime.strip()
    if update_times == None or len(update_times) == 0 or update_times == '' or update_times == 'None':
        update_times = '无'
    #tags标签字段拆分
    # 标签
    tags_arr=tags.split('|')
    for tag in tags_arr:
        print(tag)
        zps_arr = zps.split('|')
        for zp in zps_arr:
            print(zp)
            zymk_file = open("zymk.csv", mode="a+", newline='', encoding="utf-8")
            zymk_writer = csv.writer(zymk_file)
            zymk_writer.writerow(
                [id,title,update_times,tag,content,readings,subscribes,rewards,monthtickets,recommends,comments,scores,author,zp,ctime,img,url])
            zymk_file.close()
            print('国产动漫转CSV',id,title,update_times,tag,content,readings,subscribes,rewards,monthtickets,recommends,comments,scores,author,zp,ctime,img,url)
            lines=lines+1
            print('正在处理,当前总计处理数据', lines,'条')
print('全部处理完毕','处理数据量',lines,'条')