搜索引擎
达龙猫
不要只做代码搬运工,思想+行动+坚持=成功
展开
-
Lucene搜索引擎-搜索
文章目录如果对Lucene不熟悉的,请移步:Lucene搜索引擎-分词器原创 2018-10-29 22:28:04 · 11696 阅读 · 4 评论 -
Elasticsearch搜索引擎第四篇-Mapping映射详解
文章目录Mapping是什么映射类别废除说明Mapping是什么mapping映射定义索引中有什么字段、字段的类型等结构信息。相当于数据库中表结构定义,或 solr中的schema。因为lucene索引文档时需要知道该如何来索引存储文档的字段。ES中支持手动定义映射和动态映射两种方式。如下就是我们在创建索引时,手动自定义的映射:PUT test { #定义索引名称为test "mapp...原创 2018-11-13 17:52:48 · 1488 阅读 · 0 评论 -
Solr搜索引擎第九篇-DataImportHadler导入MySQL数据超详细
文章目录了解Index Handler通过DIH导入Mysql数据步骤一:准备mysql数据库和表数据步骤二:拷贝mysql的驱动jar步骤二:在solrconfig.xml配置DIH了解Index HandlerIndex handler 索引处理器,是一种Request handler 请求处理器。Solr对外提供http服务,每类服务在solr中都有对应的request handler...原创 2018-11-08 12:08:22 · 2255 阅读 · 0 评论 -
Elasticsearch搜索引擎第六篇-分词器
文章目录认识分词器测试分词器认识分词器在ES中一个Analyzer 由下面三种组件组合而成:character filter:字符过滤器,对文本进行字符过滤处理,如处理文本中的html标签字符。处理完后再交给tokenizer进行分词。一个analyzer中可包含0个或多个字符过滤器,多个按配置顺序依次进行处理。tokenizer:分词器,对文本进行分词。一个analyzer必需且只可包...原创 2018-11-15 17:29:55 · 1245 阅读 · 0 评论 -
Elasticsearch搜索引擎第五篇-索引管理
文章目录创建索引指定分片创建指定mapping创建指定别名创建返回结果说明删除索引查看索引定义信息修改索引的settings信息打开/关闭索引索引模板创建索引模板查看索引模板删除索引模板索引监控查看索引状态信息查看索引段信息查看索引恢复信息查看索引分片存储的信息索引状态管理清理缓存刷新Flush内存数据持久化强制段合并Shrink Index 收缩索引Split Index 拆分索引Rollove...原创 2018-11-14 22:14:55 · 554 阅读 · 0 评论 -
Elasticsearch搜索引擎第十篇-Query DSL详解
文章目录DSL介绍Match all queryFull text querymatch querymatch phrase querymatch phrase prefix query官网介绍链接:https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl.htmlDSL介绍Domain Specifi...原创 2018-11-20 21:59:06 · 15133 阅读 · 0 评论 -
Elasticsearch搜索引擎第十一篇-Suggest查询建议
文章目录查询建议是什么ES查询建议APISuggester介绍term suggesterphrase suggestercompletion suggester 自动补全查询建议是什么查询建议,能够为用户提供良好的使用体验。主要包括:拼写检查自动建议查询词(自动补全)如百度、谷歌搜索:ES查询建议API查询建议也是使用_search端点地址,在DSL中suggest节点...原创 2018-11-20 22:26:22 · 11169 阅读 · 6 评论 -
Elasticsearch搜索引擎第九篇-搜索API
文章目录搜索API端点地址特殊查询参数用法Request body 搜索指定返回字段搜索API端点地址搜索的端点地址可以是多索引多mapping type的。搜索的参数可作为URI请求参数给出,也可用 request body 给出。GET /twitter/_search?q=user:kimchyGET /twitter/tweet,user/_search?q=user:kimchy...原创 2018-11-19 22:16:49 · 1174 阅读 · 0 评论 -
Elasticsearch搜索引擎第十二篇-聚合分析
文章目录聚合分析简介指标聚合max min sum avg文档计数聚合分析简介聚合分析是数据库中重要的功能特性,完成对一个查询的数据集中数据的聚合计算,如:找出某字段(或计算表达式的结果)的最大值、最小值,计算和、平均值等。ES作为搜索引擎兼数据库,同样提供了强大的聚合分析能力。指标聚合metric:是对一个数据集求最大、最小、和、平均值等指标的聚合桶聚合bucketing:关系型数据...原创 2018-11-22 22:31:30 · 669 阅读 · 0 评论 -
Elasticsearch搜索引擎第七篇-文档管理
文章目录新建文档获取文档获取单个文档获取多个文档新建文档新增文档,自动生成文档id:POST twitter/_doc/{ "id": 1, "user" : "kimchy", "post_date" :原创 2018-11-17 17:04:52 · 2952 阅读 · 0 评论 -
Elasticsearch搜索引擎第八篇-集群和路由详解
文章目录集群启动原理ES集群说明集群启动集群分片原理分片分片分配节点故障集群索引原理创建索引流程文档索引流程文档路由原理搜索流程集群启动原理ES集群说明ES集群中所有节点具有相同的 cluster.name,它们共同承担数据和负载的压力。主节点Master只负责管理集群范围内的所有变更,如增加/删除索引、增加/删除节点等,即集群的元信息,不涉及文档级别的搜索、新增、修改等操作。请求可以发...原创 2018-11-17 19:34:22 · 746 阅读 · 0 评论 -
Elasticsearch搜索引擎第十三篇-集群如何规划
文章目录我们需要多大规模的集群集群中的节点角色如何分配如何避免脑裂问题索引应该设置多少个分片分片应该设置几个副本我们需要多大规模的集群在使用ES初始阶段,我们应该需要多大规模的ES集群呢?主要从以下两个问题入手:当前的数据量有多大?数据增长情况又是如何?你的机器配置如何?CPU、内存、硬盘容量多大?推算的依据如下:Elasticsearch的JVM heap大小最大不要超出...原创 2018-11-27 21:59:15 · 326 阅读 · 0 评论 -
Elasticsearch搜索引擎第三篇-ES集成IKAnalyzer中文分词器
文章目录获取ES-IKAnalyzer插件安装插件扩展词库Kibana测试创建一个索引创建一个映射mapping提交一些索引数据搜索在Lucene和Solr中讲到,集成中文分词器是相对比较麻烦的,需要我们自定义类并打成对应的jar包,在Elasticsearch中,我们不需要这么麻烦,因为已经有现成的插件可以使用。获取ES-IKAnalyzer插件下载地址:https://github.co...原创 2018-11-11 15:23:40 · 4596 阅读 · 0 评论 -
Elasticsearch搜索引擎第二篇-ES单机安装、结合Kibana使用
文章目录Linux下安装Windows下安装ES软件目录说明ES配置说明配置文件分离yml格式说明Java参数格式说明官网下载地址:https://www.elastic.co/downloads/elasticsearch前提:JDK版本:1.8Elasticsearch版本:6.4.3Linux下安装Windows下安装解压elasticsearch-6.4.3.zip包到指定...原创 2018-11-11 10:43:56 · 1066 阅读 · 0 评论 -
Solr搜索引擎第八篇-索引提交方式
文章目录通过WEB控制台提交使用POST工具提交Java客户端使用SorlJ通过WEB控制台提交登陆web控制台,从这里可以提交索引数据,支持JSON、CSV、XML、上传文件、Solr Command的方式提交索引具体提交的数据格式以及携带参数可以参看官方文档:https://lucene.apache.org/solr/guide/7_5/uploading-data-with-in...原创 2018-11-04 22:42:50 · 958 阅读 · 0 评论 -
搜索引擎初识
文章目录什么是搜索引擎适用场景核心部件构成数据类型什么是搜索引擎一套可对大量结构化、半结构化数据、非结构化文本类数据进行实时搜索的专门软件。最早应用于信息检索领域,经谷歌、百度等公司推出网页搜索而为大众广知,后又被各大电商网站采用来做网站的商品搜索。现广泛应用于各行业、互联网应用,是大型系统、网站架构师必备技能。解决的问题:专门解决大量结构化、半结构化数据、非结构化文本类数据的实时检索问题...原创 2018-10-27 09:42:44 · 232 阅读 · 0 评论 -
Lucene搜索引擎-分词器
文章目录Lucene初识适用场景特性Lucene初识分词器正向索引反向索引Lucene自带分词器项目集成IKAnalyzer分词器IKAnalyze扩展官方网站:https://lucene.apache.org/Lucene初识Apache顶级开源项目,Lucene-core是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的框架,提供了完整的查询引...原创 2018-10-27 10:41:06 · 3769 阅读 · 3 评论 -
Lucene搜索引擎-索引
文章目录IndexWriter详解Document详解Luke索引工具索引更新如果对Lucene不熟悉的,请移步:Lucene搜索引擎-分词器对输入的一串内容进行分词以后,如果需要在后续进行检索,则必须定义如何存储以及存储的方式、内容,则这就是索引需要做的事情。直接上代码:import java.io.File;import java.io.IOException;import o...原创 2018-10-27 11:16:03 · 765 阅读 · 0 评论 -
Slor搜索引擎第一篇-初识
文章目录Solr介绍Solr引入Solr特性大致使用流程Solr官网:https://lucene.apache.org/solr/Solr介绍Solr引入用过Lucene的都知道,需要在某个应用写很多API进行分词、索引、搜索,那问题来了,如果公司有很多应用,那么如果继续使用Lucene的话,会变成这个样子:每一个应用都要继承一套Lucene,这样不便于扩展、维护,我们希望的应该是如...原创 2018-10-30 21:43:11 · 547 阅读 · 0 评论 -
Solr搜索引擎第二篇-单机安装、基本使用
文章目录单机安装windows下安装Linux下安装Solr目录说明启停控制脚本支持的命令单机安装Solr版本:7.5.0下载地址:https://lucene.apache.org/solr/mirrors-solr-latest-redir.htmlwindows下安装第一步:安装JDK1.8第二步:解压到指定即可使用,非常简单使用Solr前需要对使用的环境进行评估,是在独...原创 2018-11-01 22:18:22 · 320 阅读 · 0 评论 -
Solr搜索引擎第四篇-常用命令
文章目录独立服务器模式(单机)服务器实例命令内核命令SolrCloud分布式集群模式节点命令集合命令提交数据到服务器实例独立服务器模式(单机)服务器实例命令启动服务器实例:bin/solr start [options]帮助:bin/solr start -help实际例子:bin/solr start -s [solrhome] -p [port],指定solr主目录和端口进行启动...原创 2018-11-03 17:45:14 · 279 阅读 · 0 评论 -
Solr搜索引擎第五篇-Schema模式和FieldType详解
文章目录Schema介绍Schema介绍Schema:模式,是集合/内核中字段的定义,让solr知道集合/内核包含哪些字段、字段的数据类型、字段该索引存储。原创 2018-11-03 22:25:51 · 4842 阅读 · 1 评论 -
Elasticsearch搜索引擎第一篇-ES初识
文章目录ES简介ES流行度ES特性ES应用场景ES大致架构ES核心概念ES对比RDBMS官网:https://www.elastic.co/products/elasticsearch官网学习资料:https://www.elastic.co/guide/en/elasticsearch/reference/current/index.htmlES简介Elasticsearch 是一个开源...原创 2018-11-09 14:38:51 · 1781 阅读 · 0 评论 -
Solr搜索引擎第六篇-Solr集成中文分词器IKAnalyzer
文章目录第一步:新建java maven工程第二步:定义三个java类第三步:定义三个配置文件第四步:打包三个类为jar第五步:拷贝IKAnalyzer-lucene7.5.jar和ikanalyzer-2012_u6.jar第六步:拷贝配置文件第七步:定义新的FieldType测试在Lucene搜索引擎-分词器一篇中讲述到Lucene如何集成中文分词器IKAnalyzer,这里Solr集成中文...原创 2018-11-04 10:36:32 · 598 阅读 · 0 评论 -
Solr搜索引擎第七篇-Schema API详解
文章目录总体介绍两个版本API说明更新操作定义获取操作定义官网:https://lucene.apache.org/solr/guide/7_5/schema-api.html总体介绍Solr中强烈推荐使用Schema API来管理集合/内核的模式信息,可以读、写模式信息。通过API来更新模式信息,solr将自动重载内核。但是请注意:模式修改并不会自动重索引已索引的文档,只会对后续的文档起作...原创 2018-11-04 15:55:37 · 1107 阅读 · 0 评论 -
Solr搜索引擎第三篇-两种部署模式详解
文章目录独立服务器模式(单机)架构创建一个新实例Solr主目录结构core内核目录结构SolrCloud分布式集群模式架构SolrCloud启动方式内嵌的zookeeper搭建SolrCloud集群创建和删除集合提交数据到集合中独立zookeeper独立服务器模式(单机)适用于数据规模不大的场景架构独立服务器模式就是第二篇讲到的单机安装的模式,如下架构:说明:每个solr服务器实...原创 2018-11-02 22:25:25 · 758 阅读 · 0 评论 -
ELK介绍和集群环境安装
文章目录环境准备Elasticsearch集群安装环境准备CentOS 7ELK版本:6.4.3三台机器elk01 10.8.206.46elk02 10.8.206.46elk03 10.8.206.46JDK1.8安装方式请参考另一篇博客:Linux下OpenJDK安装Elasticsearch集群安装每台机器都按照相同步骤安装Elasticsearch,但是先...原创 2018-12-30 19:16:48 · 1028 阅读 · 0 评论