lucene总结笔记

最新推荐文章于 2024-04-19 19:45:11 发布

Lang_XiHa

最新推荐文章于 2024-04-19 19:45:11 发布

阅读量390

点赞数

分类专栏： java lucene 文章标签： lucene 数据库搜索引擎 apache 文档存储

本文链接：https://blog.csdn.net/Lang_XiHa/article/details/6685610

版权

java 同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

lucene

1 篇文章 0 订阅

订阅专栏

lucene
    1.为什么学
       全文(全站) 数据库（网页)-->索引-->搜索
          用数据库（功能差，效率低)

       通用(baidu.com)
            爬虫网页-->索引-->搜索
    2.是什么
      是apache基金一个开源子项目，专门用于全文搜索引擎。

    3.原理
       数据源
       数据库
       网页   ------>索引---->搜索
       word
       图片
       pdf
       文本

1,4,5,7,2,8,9
1,2,4, 5,7, 8,9

姓名(数据库索引)
刘小庆
刘德华
刘光华
阳顶天
阳情

lunuce(倒排，关键字)
分词

      源:
      我们在这里一起学习计算机，学也学不懂，好烦烦。
      但是我们学好了计算机好有用，我们可以挣米米。

      索引后:
      title                  content
       a                     计算机（2，9，20）
       b                     我们(3,1,30,40)
       c                     中国(..)

    4.步骤(请复制核心和分词开发包)
       索引:IndexWriter
          a) 分词 analyzers
      StandAnalyzers 标准分词(英)
             SmartAnalyzers 中文

   b) 索引文件存储位置(内存，文件)
      Directory
          RamDirectory(内存)
   FSDirectory(文件系统)

   c) 文档Document (相当数据库中记录)
   d) 字段Field
       搜索 IndexSearch/IndexReader
          a)分词
   b)索引位置
   c)搜索条件(模糊，前缀，区间，短语)
   d)分数
   e)记录总数
   f)分页
   g)高亮显示

二.
    高亮显示
    paoding分词
       1. 复制开发包
       2. 复制词组dic到：src
       3. 修改代码

tika

web工程
分页

Lang_XiHa

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
lucene总结笔记

lucene 1.为什么学全文(全站) 数据库（网页)-->索引-->搜索用数据库（功能差，效率低) 通用(baidu.com) 爬虫网页-->索引-->搜索 2.是什么是apache基金一个开源子项目，专门用于全文搜索引擎。 3.原
复制链接

扫一扫

专栏目录