lucene总结笔记

 

lucene
    1.为什么学
       全文(全站) 数据库(网页)-->索引-->搜索
          用数据库(功能差,效率低)
      
       通用(baidu.com)
            爬虫网页-->索引-->搜索
    2.是什么
      是apache基金一个开源子项目,专门用于全文搜索引擎。
     
    3.原理
       数据源
       数据库
       网页   ------>索引---->搜索
       word
       图片
       pdf
       文本

       1,4,5,7,2,8,9
       1,2,4,    5,7,  8,9

       姓名(数据库索引)
         刘小庆
  刘德华
  刘光华
  阳顶天
  阳情

      lunuce(倒排,关键字)
      分词

      源:
      我们在这里一起学习计算机,学也学不懂,好烦烦。
      但是我们学好了计算机好有用,我们可以挣米米。

      索引后:
      title                  content
       a                     计算机(2,9,20)
       b                     我们(3,1,30,40)
       c                     中国(..)

 

 

 


    4.步骤(请复制核心和分词开发包)
       索引:IndexWriter
          a) 分词 analyzers
      StandAnalyzers 标准分词(英)
             SmartAnalyzers 中文

   b) 索引文件存储位置(内存,文件)
      Directory
          RamDirectory(内存)
   FSDirectory(文件系统)

   c) 文档Document (相当数据库中记录)
   d) 字段Field
       搜索 IndexSearch/IndexReader
          a)分词
   b)索引位置
   c)搜索条件(模糊,前缀,区间,短语)
   d)分数
   e)记录总数
   f)分页
   g)高亮显示

二.
    高亮显示
    paoding分词
       1. 复制开发包
       2. 复制词组dic到:src
       3. 修改代码


  
    tika


    web工程
    分页


        
 
  

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值