一、前言
最近在玩王者荣耀,疯狂喜欢里面的李白,其皮肤及动作台词什么的都有种风流倜傥的赶脚,什么“凤兮凤兮归故乡,遨游四海求其凰”,“将进酒,杯莫停”,由此,我又想到了小时候背古诗的痛苦和与他人交谈时时不时冒出一句的古诗显得自己很有文采的样子。突发奇想的我想统计一下古代诗词的词语使用频率,然后,一个项目就这么有了开始。
二、大概思路及框架
要统计诗词的数据,首先要有数据让你爬,我就此找到了一个网站 https://www.gushiwen.org,这是一个有关古诗文的网站,我是在这个基础上爬取的数据。然后将爬取的数据进行处理,我从中提取到我想要的。
所以思路应该是:数据的爬取、处理、存储,然后是结果的显示
三、项目功能
通过网页界面显示可以得到唐诗中作者的作品数量排序统计和常用词频的云图显示
四、涉及的技术
- 文本分词和解析( ansj )
- java多线程的线程池使用
- 网页解析工具( htmlunit )
- 数据库和JDBC编程
- 数据可视化( HTML/CSS/JavaScript , echarts , jQuery )
- Sparkjava嵌入式Web容器
五、项目流程图
analyze:这个包主要放置一些 “分析处理” 相关的类
config:该包主要放置 “配置” 相关的类
crawler:这个包主要放置实现 “爬虫” 相关的类
web:主要归档“Web”接口相关的类
六、程序功能
1.爬虫
这个项目最核心的是从网上数据的爬取,要想爬取数据那么首先要先懂一些前端知识。大家可以看这个网页中的一些知识暂时学习一些小的我们后面会用到的知识点 http://htmlunit.sourceforge.net/。
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。
记得要创建一个maven项目,在maven中添加配置,