随着互联网技术的日益普及,人们的娱乐化需求也发生着悄然改变,其中在线视频网站正扮演者愈发重要的角色。根据国外知名机构emarket的预测,截止到2018年,在线视频用户数量将在2017年的基础上井喷至22亿。而到2020年年尾,在线视频流量之于总流量的占比也会从现在的60%上升到80%。根据国家互联网信息中心发布的一项报告显示,中国互联网用户的近八成都是在线视频用户,用户数高达约5.5亿人次。而与国内同类型的视频网站进行比较的过程中,其竞争也愈发激励,为了提升服务品质并维系新老用户,B站等平台开始逐步挖掘并推广高质量、高权重视频内容。与此同时,视频博主也有意识的隐藏视频中的关键信息,以获取来自用户的真实反馈数据,这种手段极大的增强了用户同up主之间的交互,并有利于视频博主创作更高质量的视频内容。 它还可以激发用户探索弹幕文化的兴趣。使用户保持新鲜感,延长软件的使用寿命。
本文的主要的研究内容有以下几点:
1)了解相关系统的现状,调查多个系统的运行模式,学习使用并进行对比分析,发现其运行中存在的问题。
2)了解用户需求,分析B站用户行为数据分析与可视化系统所需要提供的服务,建立相关数据信息分析与可视化系统的业务流程;分析本系统的功能需求、采用的技术以及系统架构情况。
3)对B站用户行为数据分析与可视化系统设计,建立数据库E-R图等结构,根据功能需求规范化进行系统功能设计,在此基础上进行详细设计,详细设计本系统的功能模块等内容。
4)经过编写代码实现本系统,经过测试环节,最终完成B站排行数据分析与可视化系统。
2.2预期目标:
取自B站某月数据,其主要涉及有关生活版块的热点视频数据,并选取了大量热点词、评论等数据进行分析和研究,实现数据的可视化研究,了解这段时间网络舆情的总体趋势,掌握用户的心理态度,加强受众的互动反馈,激发用户对于B站文化探索的兴趣。
2.3关键技术:
基本上所有Python爬虫初学者都会接触到两个工具库,requests和BeautifulSoup,这二者作为最为常见的基础库,其使用方式也截然不同,其中request工具库主要是用来获取网页的源代码,其需要向服务器发送url请求指令;而beautifulsoup则主要用来对网页的源语言,包括且不限于HTML\xml进行读取和解析,提取重要信息。这两个库模拟了人们访问网页、阅读网页以及复制粘贴相应信息的过程,可以批量快速抓取数据。
(1)数据爬取模块
用python进行数据挖掘的过程中,主要是通过爬虫程序和数据的预处理来收集相应的用户数据信息。网络爬虫的实现往往是利用用户在视频上传过程中使用到的aid码进行,并通过request来选择B站的网址,从而最终收集到相关的数据。数据预处理很大程度上市用来爬取视频收集过程中的基本数据信息,并进行相关的操作。
1、数据清洗技术主要是通过使用python语言中的正则表达式技术,通过其大量收集目标数据,并进一步进行提取。2、数据转换技术主要是通过加载法,将源数据中收集到的字符串按照相应的规则和序列转换成字典。3、数据去重即用unique方法,返回没有重复元素的数组或列表。 预处理后保存到CSV文件中。
(2)数据挖掘与分析模块
数据挖掘主要是通过运用设计好的算法对已有的数据进行分析和汇总,并按照数据的特征进行情感分析。统计数据过程中多使用snownlp类库来实现这一基本的情感分析的操作,通过计算弹幕的数据值,来分析其中的倾向性。情感分析中长用sentiment来指明实际的情感值。其中,数据一旦越靠近1则越表明其正面属性,越接近0越负面,相关的结果数据可以作为情感分析的基础数据而得到。
(3)数据可视化模块
数据可视化模块主要采用饼图、词云和折线图等手段来实现最终的数据可视化。并通过matplotlib库等技术来进一步地研究和分析数据的特点,最终通过图表的模式来展示数据的深层含义。可视化模块包括各时段视频播放量比例图、热词统计图、每周不同时间视频播放量线图、情绪比例图等可视化图形。