lucence使用
1建立索引
1>提取文本 索引来源有html pdf word....
各种格式的。。 我们通过程序转化伟文本格式,这样伟我们提够建立索引的数据
源. 所为的文本 对与java面向对象开发来说就是Document对象
Document 对象对于lucence来说,就是搜索的基本单元.
Field 对象 是构成Document对象的单
比如拿html页面来说
html 页面对象利用java程序提取文本 它是由标题(title) 地址(url) 发表时间
(time)....等一个个Field单元组成
Document对象的使用一种面向对象封装的体现,它不是针对某一中文件类型,
是从具体文件类型的抽象,所以使用Lucence只要把具体类型转变文本类型即封装
Document对象.
当然比如pdf转变文本类型有难度我们可以使用某些工具来做.