lucene全文检索的概念

1.数据分类

    结构化数据:有固定类型或者有固定长度的数据

          例如:数据库中的数据(oracle,mysql等),windows中的数据(元数据)

    结构化数据的搜索方法:

          数据库中数据通过sql语句可以搜索

          元数据(windows中的通过windows提供的搜索栏进行搜索)

 

    非结构化数据:没有固定类型和固定长度的数据

          例如:word文档中的数据,邮件中的数据

     非结构化数据的搜索方法:

         word文档使用ctrl+F来搜索

         此方法叫顺序扫描法:ctrl+F中是使用顺序扫描法,拿到搜索的关键字,去文档中逐一匹配,知道找到和关键字一直的内容为止。

             优点:如果文档中存在要找的关键字,就一定能找到想要的内容

             缺点:慢,效率低

        全文检索算法(又名倒排索引算法): 

             将文件中的内容提取出来,将文字拆封成一个一个的词(分词),将这些词组成索引(类似字典中的目录),搜索的时候先搜索索引,通过索引找到文档,这个过程就叫做全文检索

        分词:去掉停用词(a,an,the,的,得,啊,嗯,呵呵),因为搜索的时候搜索这些词没有意义,将ju

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值