Luncene、solr浅析

最新推荐文章于 2020-05-27 20:56:25 发布

king_a_123

最新推荐文章于 2020-05-27 20:56:25 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/king_a_123/article/details/53038324

版权

1.SQL语句like会锁表，超过几万甚至几十万的时候就很慢，大数据支持差！lucene应运而生，当有几十亿的时候，就要用ElasticSearch!

2.不用Lucene的时候，我们的HTTP请求到达web项目，web项目如果直接调用后台数据库，后台数据库就会直接进行like查询，它会利用正则表达式进行从上到下的匹配！
用了Luncene之后，它给你建立起了倒排索引，先建立索引（对词进行了统计，并知道它在数据库中的表的哪个位置，就是它已经知道自己有什么，当然前期工作量比较大，百度和google就是天天建立索引！）

3.luncene也就是干两件事：建立索引（分词，并为词建立索引(倒排索引)，自然语言处理，线性代数，概率论和数理统计），搜索（这两者相辅相成）！

4.document一般理解为：一个个文档（相当于数据库中的一条记录）!

5.Luncene说白了就是一些现成的API，我们只需要

6.索引实际上是建立在Document的！

7.尚学堂的推荐系统：内网设计的，针对手机App的（可以重点关注这个项目：据说是从华为带出来的）！

8.Lucene简介
   .什么是lucene
   Lucene是一个全文搜索框架，而不是应用产品。因此它并不像
   http://www.baidu.com/ 或者google Desktop那么拿来就能用，它只是
   提供了一种工具让你能实现这些产品。

9. lucene能做什么
   要回答这个问题，先要了解lucene的本质。实际上lucene的功能很单一，
   说到底，就是你给它若干个字符串，然后它为你提供一个全文搜索服务，
   告诉你你要搜索的关键词出现在哪里。知道了这个本质，你就可以发挥想
   象做任何符合这个条件的事情了。你可以把站内新闻都索引了，做个资料
   库；你可以把一个数据库表的若干个字段索引起来，那就不用再担心因为
   “%like%” 而锁表了；你也可以写个自己的搜索引擎……

10. 你该不该选择lucene
   下面给出一些测试数据，如果你觉得可以接受，那么可以选择。
   – 测试一：250万记录，300M左右文本，生成索引380M左右，800线程下平均处理时间
   300ms。
   – 测试二：37000记录，索引数据库中的两个varchar字段，索引文件2.6M，800线程下平
   均处理时间1.5ms。

11. lucene为什么这么快
   – 倒排索引
   – 压缩算法
   – 二元搜索

12. 倒排索引
   – 根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的
   各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而
   称为倒排索引(invertedindex)

13.lucene的工作方式
   lucene提供的服务实际包含两部分：一入一出。所谓入是写入，即将你提
   供的源（本质是字符串）写入索引或者将其从索引中删除；所谓出是读出
   ，即向用户提供全文搜索服务，让用户可以通过关键词定位源

14.lucene
   写入流程
       源字符串首先经过analyzer处理，包括：分词，分成一个个单词；去除
       stopword（可选）。
       将源中需要的信息加入Document的各个Field中，并把需要索引的Field
       索引起来，把需要存储的Field存储起来。
       将索引写入存储器，存储器可以是内存或磁盘。
   读出流程
       用户提供搜索关键词，经过analyzer处理。
       对处理后的关键词搜索索引找出对应的Document。
       用户根据需要从找到的Document中提取需要的Field。

15.document
       用户提供的源是一条条记录，它们可以是文本文件、字符串或者数据库表
       的一条记录等等。一条记录经过索引之后，就是以一个Document的形式
       存储在索引文件中的。用户进行搜索，也是以Document列表的形式返回
       。
   field
       一个Document可以包含多个信息域，例如一篇文章可以包含“ 标题” 、
       “ 正文” 、 “ 最后修改时间” 等信息域，这些信息域就是通过Field在
       Document中存储的。
       Field有两个属性可选：存储和索引。通过存储属性你可以控制是否对这个
       Field进行存储；通过索引属性你可以控制是否对该Field进行索引。这看
       起来似乎有些废话，事实上对这两个属性的正确组合很重要
16.使用Lucene建立倒排索引文件
   导入lucene 相关jar包
   调用相关java API生成索引,代码见附件





17.OOZIE可以控制程序的执行，工作流的问题！

18.数据量少的话用luncene,比如App如果数据量不大的话，就要用luncene!

19.整个大数据学习期间的重点：Hadoop+storm+Spark+机器学习算法！

20.现在公司中用Lucene的比较少，用Solr,EleasticSearch用的多！

21.数据挖掘，数据分析，推荐系统，机器学习是自己的学习重点，搜索这里不是重点！

22.在中国公司里看态度，去的早，回的晚（尤其是想要：狮子大开口的人），同时在公司里要学会抱大腿，找一个爱搭理你的，或者爱说话的人在一起，
   在试用期阶段还好过一点，而且以后才能混的住！

king_a_123

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Luncene、solr浅析

1.SQL语句like会锁表，超过几万甚至几十万的时候就很慢，大数据支持差！lucene应运而生，当有几十亿的时候，就要用ElasticSearch!2.不用Lucene的时候，我们的HTTP请求到达web项目，web项目如果直接调用后台数据库，后台数据库就会直接进行like查询，它会利用正则表达式进行从上到下的匹配！用了Luncene之后，它给你建立起了倒排索引，先建立索引（对词
复制链接

扫一扫