ElasticSearch分析《全唐诗》,看看唐代诗人是怎么作诗的吧

《全唐诗》是清康熙四十四年(1705年),彭定求、沈三曾、杨中讷、汪士鋐、汪绎、俞梅、徐树本、车鼎晋、潘从律、查嗣瑮等十人奉敕编校,“得诗四万八千九百余首,凡二千二百余人”,共计900卷,目录12卷。

以上是百度百科对《全唐诗》的介绍,为了更加深入的学习和熟悉《全唐诗》,我们通过大数据的方式,去追求《全唐诗》的时代背景和唐代诗人的风格。

一、爬取《全唐诗》全部内容

我们通过爬虫的方式,去网上把《全唐诗》的内容爬取下来,并解析。在这里,我们使用的编程语言是Java,使用的解析工具是Jsoap。这部分,我们就不用详细介绍了,很简单的操作,爬取网页、解析XML。

二、诗句大数据存储

现在的大数据工具是非常多的,在这里,我们选择了全文检索工具ElasticSearch(后文中,我们叫它ES),选择这个工具的原因很简单,因为这个工具支持分词,支持倒排索引。尤其是ik分词,是可以对中文进行分词的,这非常有助于我们对诗句进行处理。

我们把全部的诗句插入ElasticSearch后,通过kibana工具,可以图形化的操作ES,我们先做一下全局统计,结果如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值