lucene学习总结

什么是lucene?全文检索引擎工具包
1 数据的分类,分为结构化数据和非结构化数据.结构化数据有固定类型或固定长度的数据,搜索方式为sql语句、windows搜索栏等。非结构化数据则反之,例如文档中的文字,搜索方式为ctrl+f 顺序扫描法(效率低)
2 全文检索算法(倒排索引法)模仿字典。将文件中的内容提取出来,将文字拆成一个个的词(这个步骤叫分词),将这些词组成索引(字典中的目录),搜索时先搜索索引,根据索引查找到文档,这个过程就叫做全文检索。
3 分词:去掉停用词(的,啊,嗯等)因为搜索这些词没有意义,然后去掉标点符号和空格,然后将句子拆分成词,去掉重复的词,这个过程就叫做分词。使用分词建立索引,索引可以指向多个文档。
4 lucene的应用领域,互联网搜索引擎、站内搜索引擎、优化数据库查询等(like关键字查询时,使用的时顺序扫描(全表扫描)效率低)。
5 lucene的存储结构分为索引和文档。索引和文档的结构如下图所示。文档也能存储到lucene中,如果需要马上显示的文档,一般会存入lucene中.
在这里插入图片描述
6 索引库就是你使用代码将索引存入的文件夹,词元:lucene中的最小单位(度量单位)。
7 域的详细介绍,是否分词、是否索引、是否存储。不需要索引的域不需要分词,分词后毫无意义的域不要分词。分词是为了索引。索引为了搜索,需要搜索的域就要创建索引。存储占用额外的空间(如需要马上查出就需要存储)
8 域在改造时需要考虑7中的三个问题
9 中文分词器推荐IK分词器。
10 索引维护,更新删除查询。更新时先查找,找到删除插入,找不到就直接插入。查询分为数字查询,布尔查询(组合查询),模糊查询(根据词、域名进行模糊查询查询)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值