1. 课题研究立项依据(所选课题的来源、意义、目的)
1.1课题来源
中华诗词作为传统文化的重要载体,其研究长期依赖人工整理与定性分析,难以系统揭示诗词的时空分布、传播规律及群体创作特征。随着大数据技术的快速发展,利用其高效处理海量非结构化数据的能力,构建集数据采集、清洗、存储、分析与可视化于一体的诗词信息系统,已成为数字人文研究的重要方向。本课题针对现有诗词数据库分散、分析方法单一等问题,结合大数据技术体系,设计并实现一个支持多维度挖掘的诗词信息系统,推动诗词研究的科学化与数据驱动化。
1.2研究意义
学术意义:通过量化分析诗词的时空分布、作者群体特征及传播路径,弥补传统文学研究实证性不足的缺陷。
文化意义:促进诗词资源的系统性保护与创新性利用,为传统文化传承提供数字化载体。
技术意义:验证大数据技术在古典文学研究中的适配性,为非结构化文本处理提供技术参考。
1.3研究目的
构建覆盖诗词文本、作者生平、历史事件等多源数据的标准化数据库,开发支持数据全生命周期管理(采集、清洗、存储、分析、可视化)的信息系统,为研究者提供高效的数据服务工具。
3.课题研究的基本内容及预期目标或成果
3.1 基本内容
数据层:构建包含诗词文本、作者、年代、地理信息的结构化数据库,支持多源数据融合。
分析层:基于分布式计算框架实现批量统计(如朝代创作量排名)与关联分析(如诗人交游网络)
应用层:开发交互式可视化界面,包括用户注册及登录、首页内容、诗词检索、诗词展示、个人中心等。
3.2 预期目标
快速查询相关诗词信息,实现python(数据采集)、java(后端服务)、vue(分布式存储)全链路技术协同,确保系统高可用性与扩展性
4.课题的研究方案(拟采用的研究方法、技术路线、实验方案等)
4.1研究方法
文献研究:梳理国内外传统文化数字化项目(如“中国哲学书电子化计划”),分析其技术架构与功能设计。研究Hadoop、MySQL在文化数据存储中的典型应用案例,总结技术瓶颈与优化方向。
系统分层设计:数据层结构化数据(诗词文本、作者信息)采用 MySQL存储,支持事务与复杂查询。处理层使用Python实现数据采集、清洗。基于java开发后端服务。应用层采用Vue3构建前端交互界面。
4.2技术路线
数据采集:通过分布式爬虫框架从权威古籍库(如《四库全书》电子版)抓取诗词元数据。
数据清洗:利用分布式数据处理引擎消除文本异体字(如“峰”与“峯”统一化),并进行格式标准化。
存储设计:使用MySQL等存储结构化数据存入关系型数据库,非结构化文本存入分布式文件系统。
4.3实验方案
搭建包括数据采集、存储、分析、可视化等功能的实验环境
数据完整性验证:随机抽取几首诗词进行人工校对,计算系统采集准确率。