随着互联网的快速发展,网络小说作为一种新兴文学形式,受到越来越多读者的欢迎。然而,随着网络小说数量的增加,如何有效地,分析用户行为、小说偏好和市场趋势成为了一个重要的问题。传统的人工分析方式已无法满足对海量网络小说的分析需求,因此利用大数据技术对网络小说进行智能分析已成为必然选择。本文通过对网络小说的海量数据进行分析,设计并实现了基于大数据技术的网络小说智能分析及可视化,该系统使用Java开发,通过hadoop技术框架对大量数据进行分布式处理,利用echars数据可视化图表库实现可视化图表,并采用MySQL数据库进行数据的储存和处理。网络小说智能分析及可视化的开发旨在挖掘网络小说的特点、受众喜好以及行业发展趋势。
关键词:大数据技术;网络小说智能分析及可视化;hadoop;echars
With the rapid development of the Internet, online novels, as a new form of literature, are welcomed by more and more readers. However, with the increase in the number of online novels, how to effectively analyze user behavior, novel preferences, and market trends has become an important issue. Traditional manual analysis methods can no longer meet the analysis needs of massive online novels, so using big data technology for intelligent analysis of online novels has become an inevitable choice. This article analyzes the massive data of online novels and designs and implements an intelligent analysis and visualization system for online novels based on big data technology. The system is developed in Java and distributed processing of a large amount of data is carried out using the Hadoop technology framework. The visualization chart is implemented using the Echars data visualization chart library, and the data is stored and processed using a MySQL database. The development of intelligent analysis and visualization for online novels aims to explore the characteristics, audience preferences, and industry development trends of online novels.
Keywords: big data technology; Intelligent analysis and visualization of online novels; Hadoop; Echars
1 绪论
1.1 研究背景和意义
随着互联网的快速发展,网络小说作为一种新兴文学形式,受到越来越多读者的欢迎。然而,随着网络小说数量的增加,如何有效地,分析用户行为、小说偏好和市场趋势成为了一个重要的问题。在中国正迎来从IT时代到DT时代的变革的背景下,网络小说平台在运营过程中会产生大量的读者、作者、类别、热度、评分等信息。面对日益增加的数据压力,网络小说的平台流量成本不断提升,平台在老用户维护,新用户吸引,网站点击率等方面逐渐暴露诸多问题。因此对小说平台产生的海量数据进行整合分析势在必行。一方面,有利于指导网络小说平台改编影视,降低运营成本,提升收益;另一方面,便于读者和新手更加便捷有效的发现感兴趣的小说题材。
本文通过对网络小说的海量数据进行分析,设计并实现了基于大数据技术的网络小说智能分析及可视化,该系统使用Java开发,通过hadoop技术框架对大量数据进行分布式处理,对于爬取到的数据,将采用Spark技术实现对数据进行实时处理,利用echars数据可视化图表库实现可视化图表,并采用MySQL数据库进行数据的储存和处理,实现了包括但不限于系统用户、小说数据管理、小说分类管理、小说信息管理、小说评分管理、系统管理、公告信息管理、资源管理等功能。基于大数据技术的网络小说智能分析及可视化旨在挖掘网络小说的特点、受众喜好以及行业发展趋势,具有重要的理论和现实意义。
从理论角度来看,这项研究可以进一步拓展对于网络文学的研究。通过利用大数据技术进行网络小说的分析,可以挖掘出小说中的深层次结构和内在规律,揭示出网络文学创作的本质特征和创作规律,为网络文学创作的理论研究提供了更为深入和全面的观察角度。
从现实角度来看,这项研究具有重要的应用意义。通过分析网络小说的大数据,可以了解到读者的偏好和阅读习惯,以及对于小说情节、人物塑造、文学技巧等方面的评价,这为网络小说的创作者提供了重要的参考和指导。同时,利用大数据技术进行网络小说的可视化分析,不仅可以让读者更加直观地了解小说的情节结构和人物关系,也可以为小说的营销和推广提供更为有效的手段。
综上所述,基于大数据技术的网络小说智能分析及可视化的设计与实现,具有重要的理论和现实意义,对于推动网络文学的发展、提升小说的创作水平和读者的阅读体验等方面都有积极的影响。
1.2 国内外研究现状
目前,国内赵礼强,姜崇,靖可等在2018年发表了文章《基于网络小说热度预测的 CDN 内容分发策略研究》中研究了网络小说的主题分类和情节模型,并使用Python编写程序对三个主流网络小说网站的小说数据进行爬取和分析。通过对小说内容的分析,他们从主题、情感、人物等多个维度对网络小说进行了分析。
吴剑兰在2015年的《基于Python的新浪微博爬虫研究》一文中,研究了网络小说的可视化分析,并提出目前可视化分析中存在的问题,并根据分析结果提出了改进策略。他们使用R语言编写代码,结合D3和Tableau等数据可视化工具,对网络小说标签、情节、人物关系等进行了可视化分析。
冯艳茹在2021的《基于Python的网络爬虫系统的设计与实现》一文中,通过爬取多个网络小说网站的数据,并使用Python进行情节分析和建模。他提出了一种网络小说情节分析和建模方法,并通过实验验证了该方法的有效性。
在国外方面,Lee T C , Prandoni P , Vetterli M等在2014年使用Python编程语言提取超过35000个网络小说的元数据,并通过多个来源的评论数据对这些小说进行定量分析。他们分析了网络小说的主题、故事模式、人物类型、内容情节等,揭示了中国网络文学创作的特点和规律。同时,他们使用Python可视化库Matplotlib和Seaborn制作了图表和图像,直观地展示了分析结果。
Li-Feng Y和Hao-Ran Z在2019年利用数据挖掘技术从社交媒体上收集了大量的用户生成内容,并使用自然语言处理和文本挖掘方法提取其中的小说情节。通过分析这些情节,他们揭示了网络社交媒体在小说写作中的潜在作用和影响。
Wang X,Qun N,Yan L等人在2021年使用深度学习技术,特别是循环神经网络(RNN)和生成对抗网络(GAN),对网络小说的情节进行建模和生成。他们将小说情节部分划分为不同的模块,利用深度学习模型生成新的情节,并与真实的网络小说进行比较和评估。
1.3 研究内容
本设计的目的在于使用户便捷高效比采集到需要的数据,并将数据清洗之后进行分析和可视化呈现。因比,本文将系统的功能需求分为数据采集部分、数据存储部分、数据分析部分、数据可视化交互部分,以下每个功能模块的需求分析。
(1)数据采集部分
数据采集功能只有管理员才拥有操作权限,普通用户无法操作数据采集。因此,数据采集是在服务器端上进行操作的。启动后,系统会生成相应的任务采集数据表,然后启动引擎开始爬取起点小说中文网的网页数据并存储到对应的MySQL数据库表中。
(2)数据存储部分
数据存储部分主要是用MySQL数据库来存储爬取小说的文本数据,包括ID,类型,名称,小说章节,作者,字数,状态,发布时间,点击量和推荐票数据等。
(3)数据分析部分
对清洗后的数据进行数据分析。例如,小说热榜-top10、评论内容的词云和小说阅读量、好评率的预测以及小说转换为影视剧的特征等。
(4)数据可视化交互部分
数据可视化交互部分将分析结果以ER图表的形式展示出来,用户可以自由选择想要查询的图表信息。且用户可以下载所呈现的图表信息并保存到本地,方便随时查阅。
1.4 Hadoop框架
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。
1.5 echars数据可视化图表库
ECharts是一款基于JavaScript的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表。ECharts最初由百度团队开源,并于2018年初捐赠给Apache基金会,成为ASF孵化级项目。
2021年1月26日晚,Apache基金会官方宣布ECharts项目正式毕业。1月28日,ECharts 5线上发布会举行。ECharts,一个使用 JavaScript 实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等),底层依赖矢量图形库 ZRender,提供直观,交互丰富,可高度个性化定制的数据可视化图表。
1.6 MySQL数据库
MySQL是一个开源的关系型数据库管理系统(RDBMS),它是目前世界上最流行的数据库之一。MySQL由瑞典公司MySQL AB开发,并于2000年正式发布。它被广泛应用于各种规模的应用程序,从小型个人项目到大型企业级应用程序。由于MySQL具有灵活性、可靠性和性能优势,它在各种场景下都得到广泛应用,包括网站、企业级应用程序、移动应用程序、数据分析和物联网等。MySQL可以使用关系模型来组织数据,并使用结构化查询语言(SQL)进行数据库管理和数据操作;运行在多个操作系统上,包括Windows、Linux、MacOS等;支持横向和纵向扩展,可以通过添加更多的服务器节点或增加硬件资源来处理更大规模的数据和负载。。
2 基于大数据技术的网络小说智能分析及可视化系统分析
系统需求分析是系统开发的一个关键环节,它在系统的设计和实现上起到了一个承上启下的位置。系统需求分析是对所需要做的系统进行一个需求的挖掘,如果分析的准确可以精准的解决现实中碰到的问题。如果分析不到位会影响后期系统的实现。一个系统的优秀程度需求分析也是占据了非常大的比例,如果需求分析不到位,后面的系统设计要实现就是一个偏离导航的设计。
2.1 可行性分析
2.1.1 技术可行性分析
基于大数据技术的网络小说智能分析及可视化的设计与实现是一个基于Web的房价数据信息分析平台,我们在实现这个系统使用hadoop技术框架对大量数据进行分布式处理,对于爬取到的数据,将采用Spark技术实现对数据进行实时处理,利用echars数据可视化图表库实现可视化图表,并采用MySQL数据库进行数据的储存和处理,在大学的学习中对于这些技术都已经学过同时,Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理,在技术上实现自己的自主开发是可行的。
2.1.2 经济可行性分析
在开发基于大数据技术的网络小说智能分析及可视化并不需要投入太多,开发工具、服务器、数据库等,都可以通过网络搜索、下载、安装,只需要一台普通的计算机就可以完成操作,而且在系统功能规划上通过走访调查目前用户对基于大数据技术的网络小说智能分析及可视化的需求,了解它们对系统具体实现的功能需求,然后进行设计开发,不存在任何开销,所以系统的开发在经济方面是可行的。
2.1.3 操作可行性分析
当下网络新时代,计算机已经得到了普及,多数人对计算机都比较的熟悉,知道如何使用它,当然也存在对计算机比较陌生的这一群体,也需要对其进行考虑。在进行基于大数据技术的网络小说智能分析及可视化页面的设计的时候,考虑到使用人群,可能也存在对计算机比较陌生的人,所以,在页面的设计方面,设计的很是简单、简洁,布局明了,色调明朗,让无论是对计算机陌生还是对计算机熟悉的使用者,都可以使用自如,这也说明了该程序的操作方面非常可行。
2.2 系统功能分析
2.2.1 功能性分析
按照基于大数据技术的网络小说智能分析及可视化的角色,系统划分为了普通用户模块和管理员模块这两大部分。
普通用户模块:
- 注册登录:游客可以通过注册成为系统用户,使用账号密码可进行登录,使用系统功能。
- 首页:可查看轮播图、小说资讯、小说信息推荐等,并可使用系统其他功能,小说信息推荐机制是根据用户预览小说的分类进行推荐。
- 公告信息:可查看包括关于我们、联系方式、网站介绍等管理员发布的所有公告信息,点击可查看详情。
- 小说资讯:可查看管理员发布的所有小说资讯信息,支持局部搜索和下拉(筛选、排序)搜索,热门文章推荐,点击可查看详情,进行点赞、收藏和评论。
- 小说信息:可查看管理员发布的所有小说信息,支持关键字(小说名称、小说分类)搜索和下拉(小说分类、排序)搜索,点击可查看详情(小说名称、小说分类、小说描述、小说附件、小说标签、小说描述、小说简介等),进行点赞、收藏和评论,并可点击评分操作,填写评分信息(评分分数、评分内容)并提交。
- 我的账户:对个人资料进行管理,包括修改密码和修改资料(头像、昵称、邮箱、用户姓名、用户性别)。
- 个人中心:可对个人首页、小说数据、小说评分、收藏等信息进行管控。具体如下:
点击“小说数据”,可查看自己的小说数据信息,进行查询操作,支持小说类型、小说名称搜索,可点击查看详情(小说类型、小说链接、小说名称、最新章节、小说作者、更新最新、小说简介),点击小说链接,可以跳转到该小说的起点中文网界面;
点击“小说评分”,可查看自己的小说评分信息,进行查询操作,支持小说名称、小说分类、用户姓名搜索,可点击查看详情(小说名称、小说分类、小说作者、普通用户、用户姓名、评分分数、评分内容);
点击“收藏”,可管理所有收藏信息,包括小说资讯、小说信息等收藏信息,进行查看和删除操作,点击可查看详情。
管理员模块:
- 登录:管理员账号密码由系统生成,可使用账号密码可进行登录,使用系统功能,并对个人信息和密码进行管理
- 后台首页:可查看小说数据统计、小说信息统计、小说评分统计等信息数据分析图表
- 系统用户:可对普通用户和管理员进行管控,包括进行增删改查操作,点击可查看详情
- 小说数据管理:可查看所有小说数据信息,进行增改删查操作,并可进行点击下载导入文档,和点击导入操作,支持小说类型、小说名称搜索,可点击查看详情(小说类型、小说链接、小说名称、最新章节、小说作者、更新最新、小说简介)
- 小说分类管理:可查看所有小说分类信息,进行增改删查操作,支持分类搜索,点击可查看详情。
- 小说信息管理:可查看所有小说信息,进行增改删查操作,支持小说名称、小说分类搜索,点击可查看详情(小说名称、小说链接、小说分类、小说描述、小说附件、小说标签、小说描述、小说简介等)和查看评论,点击小说链接,可以跳转到该小说的起点中文网界面。
- 小说评分管理:可查看所有小说评分信息,进行查询和删除操作,支持小说名称、小说分类、用户姓名搜索,可点击查看详情(小说名称、小说分类、小说作者、普通用户、用户姓名、评分分数、评分内容)。
- 系统管理:可对首页的轮播图进行管理,进行增删改查操作,支持标题搜索,可点击查看详情(轮播图、标题)。
- 公告信息管理:可对公告信息进行管理,进行增删改查操作,支持标题搜索,可点击查看详情(标题、正文)。
- 资源管理:可对小说资讯和资讯分类进行管理,进行增删改查操作,小说资讯支持标题、标签、分类搜索,可点击查看详情(封面图、标题、分类、标签、描述、正文)和查看评论;资讯分类支持类型名称搜索,可点击查看详情。
- 个人信息:点击“个人信息”可对个人信息进行管控,可修改头像、昵称、邮箱等个人信。
- 修改密码:点击“修改密码”可以修改账号密码,修改成功后,需要使用新密码进行登录。
2.2.2 非功能性分析
基于大数据技术的网络小说智能分析及可视化的非功能性需求比如平台的安全性怎么样,可靠性怎么样,性能怎么样,可拓展性怎么样等。具体可以表示在如下2-1表格中:
表2-1基于大数据技术的网络小说智能分析及可视化非功能需求表
安全性 |
主要指基于大数据技术的网络小说智能分析及可视化数据库的安装,数据库的使用和密码的设定必须合乎规范。 |
可靠性 |
可靠性是指基于大数据技术的网络小说智能分析及可视化能够安装用户的指示进行操作,经过测试,可靠性90%以上。 |
性能 |
性能是影响基于大数据技术的网络小说智能分析及可视化占据市场的必要条件,所以性能最好要佳才好。 |
可扩展性 |
比如数据库预留多个属性,比如接口的使用等确保了系统的非功能性需求。 |
易用性 |
用户只要跟着基于大数据技术的网络小说智能分析及可视化的页面展示内容进行操作,就可以了。 |
可维护性 |
基于大数据技术的网络小说智能分析及可视化开发的可维护性是非常重要的,经过测试,可维护性没有问题 |
2.3 系统用例分析
通过2.2的功能分析,得出了系统的用例图:
普通用户角色用例如图2-1所示。
图2-1普通用户角色用例图
管理员是维护整个基于大数据技术的网络小说智能分析及可视化中所有数据信息的。管理员角色用例如图2-2所示。
2.4 系统流程分析
2.4.1 数据流程
基于大数据技术的网络小说智能分析及可视化主要的一个目的就是实现对小说的在线评分,图2-3就是系统的数据流图。
图2-3小说评分操作展开图
2.4.2 业务流程
分析完基于大数据技术的网络小说智能分析及可视化的数据流,接下来我们来看系统的业务流程,图2-4就是业务流程图:
图2-4业务流程图
3 基于大数据技术的网络小说智能分析及可视化总体设计
本章主要讨论的内容包括基于大数据技术的网络小说智能分析及可视化的功能模块设计、数据库系统设计。
3.1 系统功能结构设计
系统在结构上的设计至关重要,要考虑周全,设计全面,一个完善的结构体系,能够满足用户在使用时的各种需求,这样会让提高程序的使用率,保证程序被长久的利用。在设计基于大数据技术的网络小说智能分析及可视化的结构时,也列入重点,采用模块化的方法来进行设计,即首先将大模块确定下来,再慢慢的将大模块进行补充完善,向下分支出小模块,一起共同组成的系统的结构体系,下图是该基于大数据技术的网络小说智能分析及可视化的结构设计图,直观明了的可以看出本项目程序的功能。
基于大数据技术的网络小说智能分析及可视化模块图如图3-1所示。
图3-1 基于大数据技术的网络小说智能分析及可视化功能模块图
3.2 数据库设计
数据库设计一般包括需求分析、概念模型设计、数据库表建立三大过程,其中需求分析前面章节已经阐述,概念模型设计有概念模型和逻辑结构设计两部分。
3.2.1 数据库概念结构设计
下面是整个基于大数据技术的网络小说智能分析及可视化中主要的数据库表总E-R实体关系图。
图3-2 基于大数据技术的网络小说智能分析及可视化总E-R关系图
3.2.2 数据库逻辑结构设计
在数据库表中我们会看到系统的表名、主键、外键等信息,我们通过数据库表的主键、外键把每个表关联起来,然后在界面中展示,本基于大数据技术的网络小说智能分析及可视化的主要的数据库表如下:
编号 |
名称 |
数据类型 |
长度 |
小数位 |
允许空值 |
主键 |
默认值 |
说明 |
1 |
token_id |
int |
10 |
0 |
N |
Y |
临时访问牌ID |
|
2 |
token |
varchar |
64 |
0 |
Y |
N |
临时访问牌 |
|
3 |
info |
text |
65535 |
0 |
Y |
N |
||
4 |
maxage |
int |
10 |
0 |
N |
N |
2 |
最大寿命:默认2小时 |
5 |
create_time |
timestamp |
19 |
0 |
N |
N |
CURRENT_TIMESTAMP |
创建时间: |
6 |
update_time |
timestamp |
19 |
0 |
N |
N |
CURRENT_TIMESTAMP |
更新时间: |
7 |
user_id |
int |
10 |
0 |
N |
N |
0 |
用户编号: |
编号 |
名称 |
数据类型 |
长度 |
小数位 |
允许空值 |
主键 |
默认值 |
说明 |
1 |
article_id |
mediumint |
8 |
0 |
N |
Y |
文章id:[0,8388607] |
|
2 |
title |
varchar |
125 |
0 |
N |
Y |
标题:[0,125]用于文章和html的title标签中 |
|
3 |
type |
varchar |
64 |
0 |
N |
N |
0 |
文章分类:[0,1000]用来搜索指定类型的文章 |
4 |
hits |
int |
10 |
0 |
N |
N |
0 |
点击数:[0,1000000000]访问这篇文章的人次 |
5 |
praise_len |
int |
10 |
0 |
N |
N |
0 |
点赞数 |
6 |
create_time |
timestamp |
19 |
0 |
N |
N |
CURRENT_TIMESTAMP |
创建时间: |
7 |
update_time |
timestamp |
19 |
0 |
N |
N |
CURRENT_TIMESTAMP |
更新时间: |
8 |
source |
varchar |
255 |
0 |
Y |
N |
来源:[0,255]文章的出处 |
|
9 |
url |
varchar |
255 |
0 |
Y |
N |
来源地址:[0,255]用于跳转到发布该文章的网站 |
|
10 |
tag |
varchar |
255 |
0 |
Y |
N |
标签:[0,255]用于标注文章所属相关内容,多个标签用空格隔开 |
|
11 |
content |
longtext |
2147483647 |
0 |
Y |
N |
正文:文章的主体内容 |
|
12 |
img |
varchar |
255 |
0 |
Y |
N |
封面图 |
|