Python实现文献数据挖掘系统(附源码)

最新推荐文章于 2024-04-10 10:52:52 发布

宋宋讲编程

最新推荐文章于 2024-04-10 10:52:52 发布

阅读量911

点赞数 1

分类专栏：宋宋讲编程数据分析 Python 文章标签： python 数据挖掘开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qiqi1220/article/details/126386497

版权

该系统基于Django和LayUI，结合HBase和MySQL，用于科研数据挖掘。采用异步爬虫爬取AAAI会议论文数据，通过Hadoop和HBase进行存储。功能包括数据统计、网络可视化、主题聚类等，提供全局检索、用户管理、词云图等服务。

摘要由CSDN通过智能技术生成

系统简介

设计并实现了一个基于Django+LayUI+HBase的文献数据挖掘系统，以帮助科研人员分析出相关科技前沿领域的专家、机构等的学术影响力。并挖掘领域高频词和不同协作者之间的关系图谱，如此便可达到科研决策支持的目的。

文末有源码

功能架构设计

本系统的功能主要分为三个模块，分别是数据统计分析结果展示平台、后台管理系统和数据存储平台，其总体功能架构如图所示。

系统实现

1、开发环境及框架配置

考虑到系统需求，采用在CentOS系统上，搭建整个开发和运行环境，其中包括Hadoop分布式平台以及HBase分布式数据库，在Win10上搭建Django框架和关系型数据库MySQL等必要的开发环境。

2、主要技术实现过程

搭建Hadoop平台：使用四台云主机(CentOS7.5)搭建集群，配置好HDFS，ZooKeeper和HBase。
异步爬取数据：使用Python中的asyncio和aiohttp库实现异步爬虫，从而异步爬取AAAI人工智能会议的历年论文元数据(包括论文标题、摘要、作者、机构以及关键词等数据)存储到Excel表中，并对爬取的数据进行规则清洗和必要的人工清洗得到较为干净的数据。
数据分析：①利用Excel函数进行数据去重、统计、排序；②利用Python构建作者数据的共现矩阵，然后将其三元组数据导入至Gephi软件进行复杂网络可视化并导出SVG可伸缩矢量图片；③利用LDA主题模型对论文摘要进行主题聚类，得到top5热门话题；④最终将清洗后的完整数据以及分析结果数据存储至位于云端的HBase中。
Web系统开发：使用Django+LayUI+Bootstrap开发(对于前端样式冲突问题可通过提升优先级解决)，主要功能有注册登录、忘记密码邮箱验证、个人中心信息修改、全局检索、论文下载、数据分析结果展示(使用Echar

最低0.47元/天解锁文章

宋宋讲编程

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。