lucene
1.为什么学
全文(全站) 数据库(网页)-->索引-->搜索
用数据库(功能差,效率低)
通用(baidu.com)
爬虫网页-->索引-->搜索
2.是什么
是apache基金一个开源子项目,专门用于全文搜索引擎。
3.原理
数据源
数据库
网页 ------>索引---->搜索
word
图片
pdf
文本
1,4,5,7,2,8,9
1,2,4, 5,7, 8,9
姓名(数据库索引)
刘小庆
刘德华
刘光华
阳顶天
阳情
lunuce(倒排,关键字)
分词
源:
我们在这里一起学习计算机,学也学不懂,好烦烦。
但是我们学好了计算机好有用,我们可以挣米米。
索引后:
title content
a 计算机(2,9,20)
b 我们(3,1,30,40)
c 中国(..)
4.步骤(请复制核心和分词开发包)
索引:IndexWriter
a) 分词 analyzers
StandAnalyzers 标准分词(英)
SmartAnalyzers 中文
b) 索引文件存储位置(内存,文件)
Directory
RamDirectory(内存)
FSDirectory(文件系统)
c) 文档Document (相当数据库中记录)
d) 字段Field
搜索 IndexSearch/IndexReader
a)分词
b)索引位置
c)搜索条件(模糊,前缀,区间,短语)
d)分数
e)记录总数
f)分页
g)高亮显示
二.
高亮显示
paoding分词
1. 复制开发包
2. 复制词组dic到:src
3. 修改代码
tika
web工程
分页