全文检索

数据的分类:
结构化数据:
格式固定,长度固定,数据类型固定
非结构化数据:
word文档,pdf文档,邮件,html
格式不固定,长度不固定,数据类型不固定

数据的查询:
结构化数据的查询:
SQL语句,查询结构化数据的方法,简单,速度快
非结构化数据的基础:
从文本文件中找出含有spring单词的文件
1:目测
2:使用程序把文件读取到内存中,然后匹配字符串,顺序扫描
根据空格进行字符串拆分,得到一个单词列表,基于单词列表创建一个索引
然后查询索引,根据单词和文档的对应关系找到文档列表,这个过程叫做全文检索

索引:一个为了提高查询速度,创建某种数据结构的集合

全文检索:
先创建索引然后查询索引的过程就叫做全文检索
索引一次创建,可以多次使用,表现每次查询速度很快

推荐使用Solr
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。提供了比Lucene更为丰富的查询语言, 同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面, 是一款非常优秀的全文搜索引擎。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值