学习ElasticSearch有一段时间了,因为英文水平较差,看官方英文文档有点吃力,周末抽时间爬取了下ES的官方文档,统计了官方文档使用的英语词汇的词频.
功能介绍
-
爬取ElasticSearch官方文档
爬取使用WebMagic实现,主要逻辑在
EsDocPageProcessor
类中
本项目地址
WebMagic官方文档
Xpath相关语法 -
统计抓取文档的词频
统计用java实现,主要逻辑在WordCountUtil
类中
词频统计结会根据传入参数resultFileName
,在项目根目录下写两个文件- ${resultFileName}SortedByKey.txt:存储按字母排序的结果
- ${resultFileName}SortedByValue.txt:存储按词频逆序排序的结果
-
程序入口
程序入口类WebMagicEsApplication
统计结果
abbreviated:1
abbreviation:1
abbreviations:3
abdicate:1
ability:39
abort:7
aborted:5
aborting:1
aborts:1
about:326
above:301
absence:1
absent:1
absolute:36
absolutely:1
abstract:1
ab~cd:1
accept:53
acceptable:10
accepted:32
...
index:1670
elasticsearch:1465
field:1380
query:1271
which:1224
following:1131
cluster:1071
value:942
using:864
example:823
document:806
default:787
documents:760
number:727
search:698
should:643
values:643
request:611
setting:601
...