计算机毕业设计之基于Hadoop的B站视频数据分析系统

随着大数据时代的来临,数据已经成为各行业决策的重要依据。B站作为国内领先的视频分享平台,拥有数亿用户和海量视频数据。这些数据中蕴含着丰富的信息和知识,对于内容创作者、广告商和用户都具有巨大的价值。为了更好地利用这些数据,本文提出了基于Hadoop的B站视频数据分析系统。系统是一款基于B/S架构的web应用,其它技术还包括python,hadoop,spark,vue,Echarts,pandas等。首先系统通过request爬虫爬取哔哩哔哩网站的视频相关数据信息,包括视频的名称,图片,收藏数,点赞数,评论、评分等数据。然后根据这些爬取的数据生成播放量统计数据、视频类别统计、评论词云统计和播放量排行榜等可视化数据。另外点击一部视频的时候,会根据协调过滤算法展示推荐视频信息。总的来说,对于广告商来说,系统可以提供准确的用户画像和视频推荐,提高广告的精准度和效果;对于用户而言,通过本系统可以获取更符合自己兴趣的视频推荐,提高用户体验。

根据以上的功能需求情况,整体的功能模块包括有前台vue项目模块,后台django后台项目模块和爬虫模块。前台vue的页面主要页面包括注册与登录页面,数据可视化展示页面,爬虫模块主要用来爬取B站的相关数据信息的,通过使用hadoop进行数据的存储,django后台用来提供前台所用的json数据以及给出视频推荐相关功能。

图4.2系统功能模块图
 

      • B站爬取页面分析

B站,全名为哔哩哔哩(Bilibili),是国内知名的视频弹幕网站之一。该网站成立于2009年,经过多年的发展,已经成为了一个涵盖动画、番剧、音乐、舞蹈、游戏、科技、生活等多个领域的综合性视频网站。B站以其独特的弹幕系统为特点,让用户可以实时发送弹幕,与其他观众进行互动和交流。这种新颖的互动方式吸引了大量年轻用户,使得B站在年轻人中具有极高的知名度和影响力。因此从这个平台可以爬取到自己需要的视频相关数据,然后便于使用这些数据进行进行视频推荐功能的实现。

  图5.2爬取网站主页面图片

【资源说明】 毕业设计-基于Hadoop平台开发的视频收视率分析源码+项目说明.zip ​ 本项目分为四个模块,分别为爬虫模块、离线数据分析模块、公共基础模块、web展示模块。首先用WebMagic爬取的B站视频数据作为数据源,构建以离线分析为基础囊括大数据主要离线技术的架构进行数据分析。针对系统的处理速度与实际生产环境的所需性,对分布式架构进行了研究。在搭建技术架构的必要基础之上采用了分布式的项目部署方式,保证在生产环境下的实际生产项目的容灾性和可扩展性,提高了系统的应用性和效率。最终完成了基于大数据技术的视频收视率分析设计与实现。具体的内容有: (1) 采用三台虚拟机进行分布式环境的搭建,模拟生产环境 (2) 使用WebMagic爬虫技术爬取B站视频数据信息,将采集到的数据导入kafka中,使用Flume框架技术从kafka采集数据到Hdfs并将数据导入到Hive中,然后使用Hue操作Hive进行离线数据分析,最后利用sqoop导入mysql,整个流程采用azkaban进行脚本定时调度,达到系统需要具备的视频收视分析功能 (3) 大数据分析展示系统采用企业中现今流行的SpringBoot+Mybatis框架进行系统的后台服务层的搭建,系统首先需要具备用户登录注册等基础功能,前台采用Bootstrap+Echarts技术实现数据展示模块。 ## 爬虫模块 video-log-spider:进行数据爬取,爬取B站视频信息 ## 离线数据分析模块 video-log-analysis:对数据进行预处理,用Hive进行离线分析 ## 公共基础模块 video-log-common:封装全局异常处理和常用工具 ## web展示模块 video-log-web:用于离线分析后的web展示,已完成的功能有每日采集概况、总采集概况、各分类播放排行、总播放排行、活跃用户分析、总收藏排行、总弹幕排行 【备注】 1.项目代码均经过功能验证ok,确保稳定可靠运行。欢迎下载使用体验! 2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为毕设、课程设计、大作业、初期项目立项演示等用途。 4.当然也鼓励大家基于此进行二次开发。在使用过程中,如有问题或建议,请及时沟通。 5.期待你能在项目中找到乐趣和灵感,也欢迎你的分享和反馈!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值