solr搭建电商搜索引擎05 - 中文分词器的配置

在英文中,单词本身就是一个“词”,一句话是由若干个英文单词和分隔符(空格)组成。而在汉语中,一句话是由若干汉字组成,但是语意的理解是以词为单位,而词和词之间没有分隔符,这样就给中文的语意理解造成了一定障碍。比如“南京市长江大桥”既可以理解为“南京市/长江/大桥”,也可以理解为“南京/市长/江大桥”。如果没有中文分词器,solr就只能按照整句话或者单个字进行索引,这样不但效率低,而且也会影响搜索结果的相关性。因此,我们需要为solr配置中文分词器。

在前面配置schema文件时,我们为product_name和product_brand两个域设置了text_cn_index的文本域类型,采用的是solr.KeywordTokenizerFactory这个分词器,它会将整个文本作为一个Token。solr管理页面提供了分词测试功能,在后续配置分词器的过程中都可以使用这个接口进行测试:在solr管理页面选择core后点击“Analysis”,键入测试文本后选择FieldType为配置了分词器的product_name或product_brand,点击“Analyse Values”后可以看到结果。

(分词器修改成功后,通过Analyse Values可以看到修改后的分词效果,但是要重新上传搜索引擎数据才能更新索引!)

在这里插入图片描述

1 SmartCN分词器

SmartCN是solr内置的中文分词器,是基于北理工张华平博士团队开发的NLPIR平台的简化版。SmartCN不在solr的源码

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
    本课程全程使用目前比较流行的开发工具idea进行开发,涉及到目前互联网项目中最常用的高并发解决方案技术, 如dubbo,redis,solr,freemarker,activeMQ,springBoot框架,微信支付,nginx负载均衡,电商活动秒杀,springSecurity安全框架,FastDFS分布式文件服务,还会涉及到代码生成,   前台的技术有angularJS和BootStrap框架,此课程内容丰富实战性强,如果你还是传统项目的开发人员,那你学完本课程会有很大的收获,让你的薪资上涨,5K以上,让你完全感受到了互联网思维带来的高 并发解决方案的思路,如果你是开发的小白,建议你学完Spring,SpringMVC,MyBatis框架后再来学习本门课程,学完以后会让你完全体验到企业级开发的流程.在职开发人员学完后会让你的薪资更高,让你更了解互联网是如何解决高并发 学完SSM框架的同学就可以学习,能让你切身感受到企业级开发环境目标1:完成solr环境安装、中文分析和业务域的配置目标2:会使用Spring Data Solr完成增删改查操作目标3:完成批量数据导入功能目标4:完成按关键字搜索功能目标5:实现考拉易购搜索结果高亮显示功能目标6:说出考拉易购搜索的业务规则和实现思路目标7:完成查询分类列表的功能目标8:完成缓存品牌和规格数据的功能目标9:完成显示品牌和规格数据的功能目标10:完成过滤条件构建的功能目标11:完成过滤查询的功能目标11:实现考拉易购价格区间筛选功能目标12:实现搜索结果分页功能目标13:理解多关键字搜索目标14:实现搜索结果排序功能目标15:实现隐藏品牌列表功能目标16:实现搜索页与首页对接功能目标17:完成更新索引库的功能

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值