Lucene
文章平均质量分 70
Lucene
优惠券已抵扣
余额抵扣
还需支付
¥9.90
¥99.00
购买须知?
本专栏为图文内容,最终完结不会低于15篇文章。
订阅专栏,享有专栏所有文章阅读权限。
本专栏为虚拟商品,基于网络商品和虚拟商品的性质和特征,专栏一经购买无正当理由不予退款,不支持升级,敬请谅解。
不死鸟.亚历山大.狼崽子
太极计算机股份有限公司系统架构师,从事ios、.net、flex、java等开发
展开
-
Lucene(12): Lucene使用注意事项
设置boost 有些时候在搜索时某个字段的权重需要大一些,例如你可能认为标题中出现关键词的文章比正文中出现关键词的文章更有价值,你可以把标题的boost设置的更大,那么搜索结果会优先显示标题中出现关键词的文章。文件锁 在写索引的过程中强行退出将在tmp目录留下一个lock文件,使以后的写操作无法进行,可以将其手工删除。关键词区分大小写 OR AND TO等关键词是区分大小写的,lucene只认大写的,小写的当做普通单词。读写互斥性 同一时刻只能有一个对索引的写操作,在写的同时可以进行搜索。原创 2023-06-15 19:23:01 · 109 阅读 · 0 评论 -
Lucene(11):搜索案例
将页面和静态资源拷贝到项目的resources目录下。pojo包下加入ResultModel实体类。原创 2023-06-15 19:20:23 · 55 阅读 · 0 评论 -
Lucene(10):Lucene相关度排序
Lucene对查询关键字和索引文档的相关度进行打分,得分高的就排在前边。1.1 如何打分计算出词(Term)的权重根据词的权重值,计算文档相关度得分。1.2 什么是词的权重Term Frequency (tf): 指此Term在此文档中出现了多少次。tf 越大说明越重要。词(Term)在文档中出现的次数越多,说明此词(Term)对该文档越重要,如“Lucene”这个词,在文档中出现的次数很多,说明该文档主要就是讲Lucene技术的。原创 2023-06-15 16:12:27 · 1018 阅读 · 0 评论 -
Lucene(9):Lucene优化
更高的值意味着索引期间更低的段合并开销,但同时也意味着更慢的搜索速度,因为此时的索引通常会包含更多的段。虽然StandardAnalyzer切分词速度快过IKAnalyzer, 但是由于StandardAnalyzer对中文支持不好, 所以为了追求好的分词效果, 为了追求查询时的准确率, 也只能用IKAnalyzer分词器, IKAnalyzer支持停用词典和扩展词典, 可以通过调整两个词典中的内容, 来提升查询匹配的精度。值越小索引速度越慢, 搜索速度越快。数值越大索引速度越快, 但是会消耗更多的内存。原创 2023-06-15 15:35:52 · 1253 阅读 · 0 评论 -
Lucene(8):Lucene底层储存结构
Lucene现在采用的数据结构为FST,它的特点就是: 优点:内存占用率低,压缩率一般在3倍~20倍之间、模糊查询支持好、查询快 缺点:结构复杂、输入要求有序、更新不易。Lucene3.0之前使用的也是跳跃表结构,后换成了FST,但跳跃表在Lucene其他地方还有应用如倒排表合并和文档号索引。优点 :结构简单、跳跃间隔、级数可控,Lucene3.0之前使用的也是跳跃表结构,,但跳跃表在。.dvm文件保存索引文档评分因子的元数据,.dvd文件保存索引文档评分数据。举例: 查找85这个节点, 需要查找7次。原创 2023-06-08 02:28:17 · 756 阅读 · 0 评论 -
Lucene(7):Lucene高级搜索
如果在执行parse方法的时候, 查询语法中包含域名则从指定的这个域名中搜索, 如果只有查询的关键字,则从默认搜索域中搜索结果。如果逻辑条件中, 只有MUST_NOT, 或者多个逻辑条件都是MUST_NOT, 无效, 查询不出任何数据。需求描述 : 查询价格大于等于100, 小于等于1000, 并且名称中不包含华为手机关键字的商品。BooleanClause.Occur.MUST_NOT 不必须 相当于not, 非。需求描述 : 查询价格大于等于100, 小于等于1000的商品。原创 2023-06-07 16:58:39 · 108 阅读 · 0 评论 -
Lucene(6):分词器
比如语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”、“是”、“啊”等。输入关键字进行搜索,当需要让该关键字与文档域内容所包含的词进行匹配时需要对文档域内容进行分析,需要经过Analyzer分析器处理生成语汇单元(Token)。对搜索关键字进行分析和索引分析一样,使用Analyzer对搜索关键字进行分析、分词处理,使用分析后每个词语进行搜索。在对Document中的内容进行索引之前,需要使用分词器进行分词 ,分词的目的是为了搜索。原创 2023-05-23 00:01:06 · 756 阅读 · 1 评论 -
Lucene(5):索引维护
管理人员通过电商系统更改图书信息,这时更新的是关系数据库,如果使用lucene搜索图书信息,需要在数据库表book信息变化时及时更新lucene索引库。更新索引是先删除再添加,建议对更新需求采用此方法并且要保证对已存在的索引执行更新,可以先查询出来,确定更新记录存在执行更新操作。索引删除后将放在Lucene的回收站中,Lucene3.X版本可以恢复删除的文档,3.X之后无法恢复。将索引目录的索引信息全部删除,直接彻底删除,无法恢复。根据Term项删除索引,满足条件的将全部删除。参考入门程序的创建索引。原创 2023-05-22 21:35:28 · 504 阅读 · 0 评论 -
Lucene(4):Field域类型
Field是文档中的域,包括Field名和Field值两部分,一个文档可以包括多个Field,Document只是Field的一个承载体,Field值即为要索引的内容,也是要搜索的内容。这个Field用来构建一个字符串Field,但是不会进行分词,会将整个串存储在索引中,比如(订单号,身份证号等)是否存储在文档中用Store.YES或Store.NO决定。是否分词:要分词,lucene对数字型的值只要有搜索需求的都要分词和索引,因 为lucene对数字型的内容要特殊分词处理,需要分词和索引。原创 2023-05-22 16:50:46 · 590 阅读 · 0 评论 -
Lucene(3): Lucene入门
Luke作为Lucene工具包中的一个工具(http://www.getopt.org/luke/),可以通过界面来进行索引文件的查询、修改。将luke-swing-8.0.0里面的内容, 放到一个硬盘根目录的文件夹下, 不能有空格和中文名称。在电商网站中,全文检索的数据源在数据库中,需要通过jdbc访问数据库中tb_sku 表的内容。最基本的有比如:AND, OR, NOT 等(必须大写)使用这三个文件的jar包,就可以实现lucene功能。它对应的查询语句:name:手 OR name:机。原创 2023-05-21 23:16:37 · 314 阅读 · 0 评论 -
Lucene(2):Lucene全文检索的流程
获取原始内容的目的是为了索引,在索引前需要将原始内容创建成文档(Document),文档中包括一个一个的域(Field),域中存储内容。根据关键字搜索索引,根据索引找到对应的文档,从而找到要搜索的内容。倒排索引结构也叫反向索引结构,包括索引和文档两部分,索引即词汇表,它的规模较小,而文档集合较大。对所有文档分析得出的语汇单元进行索引,索引的目的是为了搜索,最终要实现只搜索被索引的语汇单。对文档索引的过程,将用户要搜索的文档内容进行索引,索引存储在索引库(index)中。原创 2023-05-13 01:31:45 · 516 阅读 · 0 评论 -
Lucene(1):Lucene介绍
2.1 什么是全文检索计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。原创 2023-05-13 01:00:14 · 420 阅读 · 0 评论