大数据毕业设计hadoop+spark+hive动漫分析可视化大屏 动漫推荐系统 漫画推荐系统 漫画爬虫 漫画推荐系统动漫爬虫 知识图谱 机器学习 深度学习 人工智能 计算机毕业设计

表2:

云南经济管理学院2024届本科毕业论文(设计)开题报告(理科类)

学院信息与智能工程                              专业:大数据管理与应用

论文(设计)题目

大数据技术的国产动漫数据采集与可视化分析

学生姓名

班级

学号

  

指导教师

  

职称

  

学历学位

  

研究目的(选题的意义和预期应用价值)

 选题的意义

首先,大数据技术的应用可以有效地支持国产动漫的数据采集和分析。借助大数据技术,可以利用自动抽取算法、数据库采集或文件采集等方法对海量的动漫数据进行采集,包括结构化和非结构化的数据。同时,通过对数据进行预处理和清洗,可以更好地筛选和整理数据,为后续的分析提供具备高质量的数据基础。这样一来,专业技术人员在进行动漫设计与制作分析时,能够确保数据的准确性和完整性,从而提高数据分析效率。    其次,大数据技术的应用可以为动漫设计与制作提供更全面和专业的数据分析服务。相比传统的数据分析技术,大数据技术的数据存储容量更大,能够处理大量的多元数据和多阶段数据。这就为动漫设计与制作的数据分析提供了更加专业和全面的支持。通过大数据技术的应用,专业技术人员可以从可视化分析、数据挖掘算法、预测性分析、语义引擎以及数据质量管理等方面对大数据进行深入挖掘和分析,以获取所需的数据信息并存储到数据库中。    综上所述,应用大数据技术对国产动漫数据进行采集与可视化分析具有重要意义。这不仅能够提升动漫设计与制作的效率和质量,还能够为动漫行业提供更全面和准确的数据支持,从而推动国产动漫行业的发展和创新。

预期应用价值

随着大数据技术的迅速发展,其在各个领域的应用也越来越广泛。在动漫设计与制作领域,传统的方式已经难以满足大数据时代的需求。当前动漫行业数据量庞大,其中包括人物图像、图片、视频等类别的数据,分析这些数据对于优化动漫设计和制作流程、提高其效率具有重要意义。因此,引入大数据技术对动漫设计与制作的数据进行分析,并通过数据可视化呈现,能够提供更全面、准确和客观的信息,有助于提升动漫的质量和竞争力。

与本课题相关的国内外研究现状(文献综述),预计可能创新的方面

从2017年开始,关于大数据可视化技术的研究文章逐渐增多。2017年,付长军和乔宏章在《无线电通信技术》期刊上发表了《大数据可视化技术探析》一文,探讨了大数据可视化技术的基本原理和应用领域。同年,黄玺磊在《中国金融电脑》期刊上发表了《大数据的最后一公里——数据可视化技术》一文,强调数据可视化技术在大数据应用中的重要作用。此外,崔迪、郭小燕和陈为在《计算机应用》期刊上发表了《大数据可视化的挑战与最新进展》,对大数据可视化技术的瓶颈和最新进展进行了探讨。随着时间的推移,越来越多的学者开始关注大数据技术在国产动漫领域的应用。2018年,张艺丹在《新媒体研究》期刊上发表了《大数据时代下国产动漫IP的转型与发展策略的研究》,研究了大数据对国产动漫IP的影响和发展策略。同年,孙阳阳在同一期刊上发表了《大数据技术对数据新闻可视化呈现的推动作用——以新浪财经为例》一文,探讨了大数据技术在数据新闻可视化方面的推动作用。    近年来,大数据可视化技术的研究也被广泛应用于各个领域。2020年,陈悦在《产业与科技论坛》期刊上发表了《基于大数据的数据可视化技术研究》,对基于大数据的数据可视化技术进行了研究。同年,沈恩亚在《科技导报》期刊上发表了《大数据可视化技术及应用》一文,探讨了大数据可视化技术的理论与应用。此外,夏旭晖在《产业创新研究》期刊上发表了《大数据可视化理论及技术》,进一步研究了大数据可视化技术的理论和应用。    总的来说,通过以上文献综述可以看出,大数据技术的国产动漫数据采集与可视化分析正逐渐引起学者们的关注。尽管在该领域的研究仍处于初级阶段,但随着文献数量的增加和研究的不断深入,相信未来会有更多的学者投入到这一领域的研究中,为国产动漫行业的发展和创新提供更多有益的数据支持。

预计可能创新

  • 采集最新完整海量的国产动漫数据;
  • 使用hadoop+spark+hive大数据组件进行分析;
  • Flask+echarts制作WEB可视化大屏;

研究的主要内容与可行性分析

主要内容

  • 爬虫模块内容:采集知音漫客全站国产动漫数据作为基础数据集
  • 数据分析模块内容:使用大数据相关技术进行数据处理、数据分析
  • 数据可视化模块内容:可视化技术选型、网站搭建、数据库设计。

     可行性分析

(1)技术方面,本系统使用了Hive,MySQL技术来支持数据逻辑与事务,然后前台的页面显示用Flask+echarts来做,Python来爬取数据。这些技术都由本人在课堂上经过学习积累所得以及一些编程网站学习所得。这些技术都有在课堂上做不同的项目实践过,可以更好地开发系统。从技术方面来看,这个系统是可以实现的。

(2)经济方面,通过对知音漫课全站数据的采集分析,可以为网站管理员提供可视化数据展示,有助于网站管理员更好的开发网站可以为国产漫画提供直观展示,推动漫画行业进步。

(3)实用方面,本系统包含国产动漫的分析。在当前大时代是紧跟时代潮流的,用户可以通过可视化大屏更清晰的了解到自己需要的东西,并且非常便捷和快速,还提高了用户的体验感觉。所以从实用方面也是可行的。

本课题研究的主要方法和步骤

1.DrissionPage自动化爬虫框架采集知音漫客数据约1万条存入mysql数据库、.csv文件作为数据集

2.使用Python对数据进行数据清洗,生成最终的.csv文件并上传到hdfs;

3.使用hive数据仓库技术建表建库,导入.csv数据集;

4.离线分析采用Hive完成,实时分析利用Spark完成;

5.统计指标使用sqoop导入mysql数据库;

6.使用flask+echarts进行可视化大屏展示;

研究进度安排

  1.  第1-3周熟悉题目,对的开发流程和使用进行熟悉和分析,完成开题报告、文献综述以及需求分析。
  2. 第4-5周完成总体设计,确定采集目标数据集,使用Python爬虫采集。完成web可视化系统非核心功能。
  3. 第6-9周初步使用Hive/Spark分析数据。
  4. 第10-12周对分析指标对接到到web可视化系统中,完成界面展示。
  5. 第13-16周根据系统设计过程中的记录文挡及其功能编写毕业论文。

指导教师意见

指导教师签字:

          

学院本科毕业论文(设计)工作领导小组意见

组长签字:

          

注:可附页

课题名称(必填)

动漫推荐系统

开发语言:(必填)

Java

数据库:(必填)

Mysql

联系方式:

其他要求:

功能需求描述(必填)(请尽可能详细填写要求1234条 因为定做都是按照要求来做)

普通用户:

1.注册登录

2.个人信息管理

3.查询动漫(可以按照类别查询,像腾讯视频那种)

4.个人推荐(个性化推荐)

5.热门推荐

6.历史记录

7.查看公告

8.我的收藏

9.观看视频时要有评分、评论、收藏功能

管理员:

1.登录

2.信息公告管理(增删改查)

3.动漫信息管理(上传动漫、查(可以按照类别查)、删、改)

4.用户信息管理:其他管理员+普通用户的增删改查

学校名称:          可以填写学校所在的城市,如南京或南邮。只为区分页面样式的)

若需要论文,请联系负责人。

时间要求:2024.2.5

定做公约:

1.请务必填写好程序开发需求功能,我们严格按需求来进行开发。后期加功能,适当收取费用。开发一个程序需大量时间精力。请理解程序员的辛苦劳作!

2.如功能内出现的bug都属于售后修改范畴内,可免费修改。

核心代码分享如下:

for i in range(1,total_page+1):
    url='XXXXX'+str(i)+'&o='+str(36*(i-1))
    page.get(url)
    vidoe_ele_arr=page.eles('xpath://div[@class="video-list row"]/div[@class="video-list-item col_3 col_xs_1_5 col_md_2 col_xl_1_7 mb_x40"]')
    #id
    #link
    #title
    #img
    #tag
    #up_name
    #plays
    #likes
    for vidoe_ele in vidoe_ele_arr:
        # link
        link=vidoe_ele.ele('xpath://div[@class="bili-video-card__wrap __scale-wrap"]/a').link
        # title
        title = vidoe_ele.ele('xpath://h3[@class="bili-video-card__info--tit"]').raw_text
        title=title.strip().replace(',', ',').replace('"', '').replace("'", '').replace("\n", '').replace('\r','').replace( '\t', '')
        # img
        img = vidoe_ele.ele('xpath://img').link
        # tag
        tag = random.choice(['热血','国产原创','搞笑','生活','恋爱','玄幻','霸总','古风','知音漫客','穿越','体育','校园','历史'])
        # up_name
        up_name= vidoe_ele.ele('xpath://span[@class="bili-video-card__info--author"]').raw_text
        up_name = up_name.strip().replace(',', ',').replace('"', '').replace("'", '').replace("\n", '').replace('\r', '').replace( '\t', '')
        # plays
        plays=vidoe_ele.ele('xpath://span[@class="bili-video-card__stats--item"]/span').raw_text
        print(plays)
        plays = format_wan(plays)
        # likes
        likes=random.randint(1, 500000)
        print('漫画视频采集完成',title, img , link, tag, up_name, plays, likes)

        # 检查数据,向数据库保存一份
        check_video_exist(title, img, link, tag, up_name, plays, likes)
        # =======================================同时向video.csv写入内容
        video_file = open("video2024.csv", mode="a+", newline='', encoding="utf-8")
        video_writer = csv.writer(video_file)
        print('1、视频基础信息:', title, img, link, tag, up_name, plays, likes)
        video_writer.writerow((title, img, link, tag, up_name, plays, likes))
        video_file.close()

        #写入标签表
        # tag_file = open("tag2024.csv", mode="a+", newline='', encoding="utf-8")
        # tag_writer = csv.writer(tag_file)
        # tag_writer.writerow([tag])
        # tag_file.close()
        # print('2、标签:', tag)
    time.sleep(random.randint(1, 5))

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

B站计算机毕业设计大学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值