java全文检索技术_Java学习之——Solr

f06a2c6595bcd7d3baeed3a43b05dfec.png

一、 Solr 介绍

1 全文检索

什么叫做全文检索呢?这要从我们生活中的数据说起。

我们生活中的数据总体分为两种:结构化数据和非结构化数据。

1)结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。

2)非结构化数据:指不定长或无固定格式的数据,如邮件,word 文档等。

非结构化数据又一种叫法叫全文数据。

按照数据的分类,搜索也分为两种:

1)对结构化数据的搜索:如对数据库的搜索,用 SQL 语句。

2)对非结构化数据的搜索:如利用 windows 的搜索也可以搜索文件内容,Linux

下的 grep 命令,再如用 Google 和百度可以搜索大量内容数据。

2 Lucene

Lucene 是一个高效的,基于 Java 的全文检索库。

Lucene 是 apache 软件基金会 4 jakarta 项目组的一个子项目,是一个开放源代码的全

文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,

Lucene 的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现

全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene 是一套用于全文

检索和搜寻的开源程序库,由 Apache 软件基金会支持和提供。Lucene 提供了一个简单却

强大的应用程序接口,能够做全文索引和搜寻。在 Java 开发环境里 Lucene 是一个成熟的

免费开源工具。就其本身而言,Lucene 是当前以及最近几年最受欢迎的免费 Java 信息检

索程序库。

3 Solr 简介

Solr 是基于 Lucene 的面向企业搜索的 web 应用

Solr 是一个独立的企业级搜索应用服务器,它对外提供类似于 Web-service 的 API 接

口。用户可以通过 http 请求,向搜索引擎服务器提交一定格式的 XML 文件,生成索引;也

可以通过 Http Get 操作提出查找请求,并得到 xml/json 格式的返回结果。

Solr 是一个高性能,采用 Java5 开发,基于 Lucene 的全文搜索服务器。同时对其进行

了扩展,提供了比 Lucene 更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能

进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文检索引擎。

文档通过 Http 利用 XML 加到一个搜索集合中。查询该集合也是通过 http 收到一个

XML/JSON 响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高

亮显示搜索结果,通过索引复制来提高可用性,提供一套强大 Data Schema 来定义字段,

类型和设置文本分析,提供基于 Web 的管理界面等。

1. Solr是一个独立的企业级搜索引擎服务器. 主要功能:

> 可以将各

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值