随着大数据时代的来临,数据已经成为各行业决策的重要依据。B站作为国内领先的视频分享平台,拥有数亿用户和海量视频数据。这些数据中蕴含着丰富的信息和知识,对于内容创作者、广告商和用户都具有巨大的价值。为了更好地利用这些数据,本文提出了基于Hadoop的B站视频数据分析系统。系统是一款基于B/S架构的web应用,其它技术还包括python,hadoop,spark,vue,Echarts,pandas等。首先系统通过request爬虫爬取哔哩哔哩网站的视频相关数据信息,包括视频的名称,图片,收藏数,点赞数,评论、评分等数据。然后根据这些爬取的数据生成播放量统计数据、视频类别统计、评论词云统计和播放量排行榜等可视化数据。另外点击一部视频的时候,会根据协调过滤算法展示推荐视频信息。总的来说,对于广告商来说,系统可以提供准确的用户画像和视频推荐,提高广告的精准度和效果;对于用户而言,通过本系统可以获取更符合自己兴趣的视频推荐,提高用户体验。
根据以上的功能需求情况,整体的功能模块包括有前台vue项目模块,后台django后台项目模块和爬虫模块。前台vue的页面主要页面包括注册与登录页面,数据可视化展示页面,爬虫模块主要用来爬取B站的相关数据信息的,通过使用hadoop进行数据的存储,django后台用来提供前台所用的json数据以及给出视频推荐相关功能。
图4.2系统功能模块图
-
-
- B站爬取页面分析
-
B站,全名为哔哩哔哩(Bilibili),是国内知名的视频弹幕网站之一。该网站成立于2009年,经过多年的发展,已经成为了一个涵盖动画、番剧、音乐、舞蹈、游戏、科技、生活等多个领域的综合性视频网站。B站以其独特的弹幕系统为特点,让用户可以实时发送弹幕,与其他观众进行互动和交流。这种新颖的互动方式吸引了大量年轻用户,使得B站在年轻人中具有极高的知名度和影响力。因此从这个平台可以爬取到自己需要的视频相关数据,然后便于使用这些数据进行进行视频推荐功能的实现。
图5.2爬取网站主页面图片