1.项目简介
通过抓取网络上的唐诗,然后进行数据的清洗、存储、分析最后生成可视化文档。数据来源:古诗文网:https://so.gushiwen.org
2.项目设计图
3.模块设计
项目总体分为四个模块,分别是analyse(分析相关)、config(配置相关)、crawier(爬虫相关)、web(web接口相关)四个模块。
大体思想是:爬虫部分(crawier)从网页进行数据的爬取,依据网页结构进行分析然后获取我们的目标数据,将其存储到数据库表的相应字段中进行存储。然后分析模块(analyse)从数据库中取出爬取的唐诗数据进行统计整理最后利用web模块进行服务的部署。配置模块(config)的存在是为了使我们的项目具有良好的可扩展性和跨平台性,在不同的环境下只需要进行配置文件的修改即可无须修改大量代码。
4.结果显示
创作数量排行榜
诗词用词云图