ElasticSearch官方文档词频

学习ElasticSearch有一段时间了,因为英文水平较差,看官方英文文档有点吃力,周末抽时间爬取了下ES的官方文档,统计了官方文档使用的英语词汇的词频.

功能介绍

  • 爬取ElasticSearch官方文档

    爬取使用WebMagic实现,主要逻辑在EsDocPageProcessor类中
    本项目地址
    WebMagic官方文档
    Xpath相关语法

  • 统计抓取文档的词频
    统计用java实现,主要逻辑在WordCountUtil类中
    词频统计结会根据传入参数resultFileName,在项目根目录下写两个文件

    • ${resultFileName}SortedByKey.txt:存储按字母排序的结果
    • ${resultFileName}SortedByValue.txt:存储按词频逆序排序的结果
  • 程序入口
    程序入口类WebMagicEsApplication

统计结果

abbreviated:1
abbreviation:1
abbreviations:3
abdicate:1
ability:39
abort:7
aborted:5
aborting:1
aborts:1
about:326
above:301
absence:1
absent:1
absolute:36
absolutely:1
abstract:1
ab~cd:1
accept:53
acceptable:10
accepted:32
...
index:1670
elasticsearch:1465
field:1380
query:1271
which:1224
following:1131
cluster:1071
value:942
using:864
example:823
document:806
default:787
documents:760
number:727
search:698
should:643
values:643
request:611
setting:601
...
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值