唐诗分析 今析古言项目-1

该项目从古诗文网抓取唐诗数据,进行清洗、存储和分析,最终生成可视化结果。主要分为四个模块:analyse、config、crawier和web。爬虫模块抓取数据,分析模块进行统计,web模块部署服务,config模块确保可扩展性。项目使用htmlunit、ansj和sparkjava等技术,并在GitHub上开源。
摘要由CSDN通过智能技术生成

1.项目简介

通过抓取网络上的唐诗,然后进行数据的清洗、存储、分析最后生成可视化文档。数据来源:古诗文网:https://so.gushiwen.org

2.项目设计图

design.png

3.模块设计

项目总体分为四个模块,分别是analyse(分析相关)、config(配置相关)、crawier(爬虫相关)、web(web接口相关)四个模块。
大体思想是:爬虫部分(crawier)从网页进行数据的爬取,依据网页结构进行分析然后获取我们的目标数据,将其存储到数据库表的相应字段中进行存储。然后分析模块(analyse)从数据库中取出爬取的唐诗数据进行统计整理最后利用web模块进行服务的部署。配置模块(config)的存在是为了使我们的项目具有良好的可扩展性和跨平台性,在不同的环境下只需要进行配置文件的修改即可无须修改大量代码。

4.结果显示

创作数量排行榜
在这里插入图片描述
诗词用词云图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值