2024年大数据最新IK分词器(2),面试必问

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

GET _analyze
{
  "analyzer": "ik\_smart",
  "text": ["好好学习"]
}
// 分词结果
{
  "tokens" : [
    {
      "token" : "好好学习",
      "start\_offset" : 0,
      "end\_offset" : 4,
      "type" : "CN\_WORD",
      "position" : 0
    }
  ]
}

最细粒度划分

GET _analyze
{
  "analyzer": "ik\_max\_word",
  "text": ["好好学习"]
}
// 分词结果
{
  "tokens" : [
    {
      "token" : "好好学习",
      "start\_offset" : 0,
      "end\_offset" : 4,
      "type" : "CN\_WORD",
      "position" : 0
    },
    {
      "token" : "好好学",
      "start\_offset" : 0,
      "end\_offset" : 3,
      "type" : "CN\_WORD",
      "position" : 1
    },
    {
      "token" : "好好",
      "start\_offset" : 0,
      "end\_offset" : 2,
      "type" : "CN\_WORD",
      "position" : 2
    },
    {
      "token" : "好学",
      "start\_offset" : 1,
      "end\_offset" : 3,
      "type" : "CN\_WORD",
      "position" : 3
    },
    {
      "token" : "学习",
      "start\_offset" : 2,
      "end\_offset" : 4,
      "type" : "CN\_WORD",
      "position" : 4
    }
  ]
}

自定义配置分词字典
elasticsearch-7.6.2\plugins\elasticsearch-analysis-ik-7.6.2\config\IKAnalyzer.cfg.xml

<!--新建 dic文件录入分词,在IKAnalyzer.cfg.xml中配置-->
<entry key="ext\_dict">春眠不觉晓.dic</entry>

GET _analyze
{
  "analyzer": "ik\_max\_word",
  "text": ["春眠不觉晓"]
}
// 自定义分词前
{
  "tokens" : [
    {
      "token" : "春",
      "start\_offset" : 0,
      "end\_offset" : 1,
      "type" : "CN\_CHAR",
      "position" : 0
    },
    {
      "token" : "眠",
      "start\_offset" : 1,
      "end\_offset" : 2,
      "type" : "CN\_CHAR",
      "position" : 1
    },


![img](https://img-blog.csdnimg.cn/img_convert/44b424d33beeaeb022a0dbc5d632a5f7.png)
![img](https://img-blog.csdnimg.cn/img_convert/5fdc54453c2360c724fc3934ca81e4a7.png)
![img](https://img-blog.csdnimg.cn/img_convert/20e6e17c09941213bdbab124e22fcaa7.png)

**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**

**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**

厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/forums/4f45ff00ff254613a03fab5e56a57acb)**

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
ik分词器是一款基于Java开发的中文分词工具,在信息处理和文本挖掘等领域广泛应用。ik分词器7.16.2是ik分词器的一个版本,相比以往版本,它具有以下特点和优势。 首先,ik分词器7.16.2具备了良好的分词效果。它采用了基于词典和规则的分词算法,可以准确地提取出中文文本中的词汇,包括单个汉字、词语和短语。同时,它还可以处理一些特殊的分词情况,比如人名、地名、组织机构名等。 其次,ik分词器7.16.2支持用户自定义词典。用户可以根据自己的需求,通过添加词典文件来扩充分词器的词汇库。这样一来,可以提高分词的准确性和适应性,更好地满足用户的实际需求。 第三,ik分词器7.16.2良好的兼容性。它支持与多种主流的Java开发框架和搜索引擎进行无缝集成,如Lucene、Elasticsearch等。这样一来,用户可以方便地将ik分词器应用到自己的项目中,提高处理中文文本的效率和准确性。 最后,ik分词器7.16.2还提供了丰富的扩展功能。它支持同义词、拼音等扩展分词属性,可以根据实际需要对分词进行定制化处理。此外,还提供了分词结果高亮等功能,方便用户展示搜索关键词。 总之,ik分词器7.16.2以其良好的分词效果、词典扩展能力和丰富的扩展功能,在中文文本分析和处理领域具有较高的实用价值。它的不断更新迭代也为用户提供了优质的中文分词体验。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值