《全唐诗》是清康熙四十四年(1705年),彭定求、沈三曾、杨中讷、汪士鋐、汪绎、俞梅、徐树本、车鼎晋、潘从律、查嗣瑮等十人奉敕编校,“得诗四万八千九百余首,凡二千二百余人”,共计900卷,目录12卷。
以上是百度百科对《全唐诗》的介绍,为了更加深入的学习和熟悉《全唐诗》,我们通过大数据的方式,去追求《全唐诗》的时代背景和唐代诗人的风格。
一、爬取《全唐诗》全部内容
我们通过爬虫的方式,去网上把《全唐诗》的内容爬取下来,并解析。在这里,我们使用的编程语言是Java,使用的解析工具是Jsoap。这部分,我们就不用详细介绍了,很简单的操作,爬取网页、解析XML。
二、诗句大数据存储
现在的大数据工具是非常多的,在这里,我们选择了全文检索工具ElasticSearch(后文中,我们叫它ES),选择这个工具的原因很简单,因为这个工具支持分词,支持倒排索引。尤其是ik分词,是可以对中文进行分词的,这非常有助于我们对诗句进行处理。
我们把全部的诗句插入ElasticSearch后,通过kibana工具,可以图形化的操作ES,我们先做一下全局统计,结果如下: