Lucene
传统的数据库可以来存储数据进行搜索,但是数据库每次查找是从上到下全表逐行扫描执行的效率慢,而且无法存储海量数据, 如果分库分表这样会增加业务的复杂度 增加学习成本
Lucene就是所有搜索引擎的最底层 利用了倒排索引
什么是倒排索引
例如数据库有一张表
创建文档列表::::::::::::::::对这张表里的数据按照id 进行索引存储,给每一条原始数据创建文
档编号 形成一个文档列表…
创建倒排索引库:::::::::::::对文档中的数据进行分词得到词条, 给每一个词条进行编号并以词条创建索引,然后记录下包含该词条的所有文档编号…
这样用户每次输入想要查找的内容就会提交到服务器进行分词, 然后根据这些词条去倒排索引库去匹配, 在倒排索引库找到这些词条就能找到包含词条的文档编号,然后利用编号去文档列表就可以找到.
Elasticsearch搜索 (近实时)
1.索引库indeces(数据库Databases)
创建索引库 : PUT /名字
查看索引库 : GET /名字 或者 HEAD /名字
删除索引库 : DELETE /名字
2.类型type(数据库的表Table)及映射操作(_mapping)
有了索引库,等于有了数据库。接下来就需要索引库中的类型了,也就是数据库中的表。创建数据库表需要设置字段约束,索引库也一样,在创建索引库的类型时,需要知道这个类型下有哪些字段,每个字段有哪些约束信息,这就叫做字段映射(mapping)
创建映射字段:
PUT /索引库名/_mapping/类型名称
{
"properties": {
"字段名": {
"type": "类型",
"index": true,
"store": true,
"analyzer": "分词器"
}
}
}
类型名称:就是前面将的type的概念,类似于数据库中的表
字段名:任意填写,下面指定许多属性,例如:
- type:类型,可以是text、long、short、date、integer、object等
- index:是否索引,默认为true
- store:是否存储,默认为false
- analyzer:分词器,这里的ik_max_word即使用ik分词器
示例:
PUT /zyb/_mapping/goods
{
"properties": {
"title": {
"type": "text",
"analyzer": "ik_max_word"
},
"images": {
"type": "keyword",
"index": "false"
},
"price": {
"type": "float"
}
}
}
响应结果:
{
"acknowledged": true
}
上述案例中,就给zyb这个索引库添加了一个名为goods的类型,并且在类型中设置了3个字段:
- title:商品标题
- images:商品图片
- price:商品价格
并且给这些字段设置了一些属性,至于这些属性对应的含义,我们在后续会详细介绍。
查看映射关系
GET /索引库名字/_mapping
GET /索引库名字/_mapping/映射名
映射属性
type:
- String类型,又分两种:
- text:可分词,不可参与聚合
- keyword:不可分词,数据会作为完整字段进行匹配,可以参与聚合
- Numerical:数值类型,分两类
- 基本数据类型:long、interger、short、byte、double、float、half_float
- 浮点数的高精度类型:scaled_float
- 需要指定一个精度因子,比如10或100。elasticsearch会把真实值乘以这个因子后存储,取出时再还原。
- Date:日期类型
elasticsearch可以对日期格式化为字符串存储,但是建议我们存储为毫秒值,存储为long,节省空间。 - Array:数组类型
- 进行匹配时,任意一个元素满足,都认为满足
- 排序时,如果升序则用数组中的最小值来排序,如果降序则用数组中的最大值来排序
- Object:对象
{
name:"Jack",
age:21,
girl:{
name: "Rose",
age:21
}
}
如果存储到索引库的是对象类型,例如上面的girl,会把girl编程两个字段:girl.name和girl.age
~
index:
index影响字段的索引情况。
- true:字段会被索引,则可以用来进行搜索过滤。默认值就是true
- false:字段不会被索引,不能用来搜索
index的默认值就是true,也就是说你不进行任何配置,所有字段都会被索引。
但是有些字段是我们不希望被索引的,比如商品的图片信息,就需要手动设置index为false。
store :
是否将数据进行额外存储。
在学习lucene和solr时,我们知道如果一个字段的store设置为false,那么在文档列表中就不会有这个字段的值,用户的搜索结果中不会显示出来。
但是在Elasticsearch中,即便store设置为false,也可以搜索到结果。
原因是Elasticsearch在创建文档索引时,会将文档中的原始数据备份,保存到一个叫做_source的属性中。而且我们可以通过过滤_source来选择哪些要显示,哪些不显示。
而如果设置store为true,就会在_source以外额外存储一份数据,多余,因此一般我们都会将store设置为false,事实上,store的默认值就是false。
3.文档Document(表的行Row)
新增文档: id 不写,默认生成随机id
POST /索引库名/类型名/id
{
"key":"value"
}
查看文档:
GET /索引库/类型/r9c1KGMBIhaxtY5rlRKv (id)
修改文档: id对应文档存在,则修改…id对应文档不存在,则新增
PUT /zyb/goods/3
{
"title":"超米手机",
"images":"http://image.jpg",
"price":3899.00,
}
删除文档:
DELETE /索引库名/类型名/id值
4查询
4.1基本查询
基本查询:
GET /索引库名/_search
{
"query":{
"查询类型":{
"查询条件":"查询条件值"
}
}
}
这里的query代表一个查询对象,里面可以有不同的查询属性
- 查询类型:
- 例如:match_all, match,term , range 等等
- 查询条件:查询条件会根据类型的不同,写法也有差异,后面详细讲解
4.2查询所有match_all
GET /zyb/_search
{
"query":{
"match_all": {}
}
}
4.3匹配查询(match)
match类型查询,会把查询条件进行分词,然后进行查询,多个词条之间是or的关系
or关系:
GET /zyb/_search
{
"query":{
"match":{
"title":"小米电视"
}
}
}
and关系
GET /zyb/_search
{
"query":{
"match":{
"title":{"query":"小米电视","operator":"and"}
}
}
}
4.4词条匹配(term精确匹配)
term 查询被用于精确值 匹配,这些精确值可能是数字、时间、布尔或者那些未分词的字符串 : 必须是词条才能查询
GET /zyb/_search
{
"query":{
"term":{
"price":2699.00
}
}
}
4.5模糊查询
它允许用户搜索词条与实际词条的拼写出现偏差,但是偏差的编辑距离不得超过2:我们可以通过fuzziness来指定允许的编辑距离
GET /heima/_search
{
"query": {
"fuzzy": {
"title": {
"value":"appla",
"fuzziness":1
}
}
}
}
4.6范围查询 和 布尔查询
范围 : range 查询找出那些落在指定区间内的数字或者时间
GET /zyb/_search
{
"query":{
"range": {
"price": {
"gte": 1000.0,
"lt": 2800.00
}
}
}
}
布尔 : bool把各种其它查询通过must(与)、must_not(非)、should(或)的方式进行组合
GET /zyb/_search
{
"query":{
"bool":{
"must": { "match": { "title": "大米" }},
"must_not": { "match": { "title": "电视" }},
"should": { "match": { "title": "手机" }}
}
}
}
4.7结果的过滤
elasticsearch在搜索的结果中,会把文档中保存在_source的所有字段都返回。如果我们只想获取其中的部分字段,我们可以添加_source的过滤
直接指定字段 :
GET /zyb/_search
{
"query": {
"term": {
"price": 2699
}
},
"_source": ["title","price"]
}
我们也可以通过:
- includes:来指定想要显示的字段
- excludes:来指定不想要显示的字段
GET /zyb/_search
{
"query": {
"term": {
"price": 2699
}
},
"_source": {
"includes":["title","price"]
}
}
4.8高亮显示
GET /zyb/_search
{
"query": {
"match": {
"title": "手机"
}
},
"highlight": {
"pre_tags": "<em>",
"post_tags": "</em>",
"fields": {
"title": {}
}
}
}
在使用match查询的同时,加上一个highlight属性:
- pre_tags:前置标签
- post_tags:后置标签
- fields:需要高亮的字段
- title:这里声明title字段需要高亮,后面可以为这个字段设置特有配置,也可以空
4.9排序
sort 可以让我们按照不同的字段进行排序,并且通过order指定排序的方式
单字段排序:
GET /zyb/_search
{
"query": {
"match": {
"title": "小米手机"
}
},
"sort": [
{
"price": {
"order": "desc"
}
}
]
}
多字段:
假定我们想要结合使用 price和 _score(得分) 进行查询,并且匹配的结果首先按照价格排序,然后按照相关性得分排序:
GET /zyb/_search
{
"query":{
"bool":{
"must":{ "match": { "title": "小米手机" }},
"filter":{
"range":{"price":{"gt":200000,"lt":300000}}
}
}
},
"sort": [
{ "price": { "order": "desc" }},
{ "_score": { "order": "desc" }}
]
}
4.10分页
在查询下面加上: from 和 size
GET /zyb/_search
{
"query": {
"match_all": {}
},
"from": 0,
"size": 6
}
4.11 聚合
桶(bucket) :
进行分组,相当于数据库的group by
- Date Histogram Aggregation:根据日期阶梯分组,例如给定阶梯为周,会自动每周分为一组
- Histogram Aggregation:根据数值阶梯分组,与日期类似,需要知道分组的间隔(interval)
- Terms Aggregation:根据词条内容分组,词条内容完全匹配的为一组
- Range Aggregation:数值和日期的范围分组,指定开始和结束,然后按段分组
- ……
度量(metrics) :
分组完成以后,我们一般会对组中的数据进行聚合运算,例如求平均值、最大、最小、求和等,这些在ES中称为度量.
- Avg Aggregation:求平均值
- Max Aggregation:求最大值
- Min Aggregation:求最小值
- Percentiles Aggregation:求百分比
- Stats Aggregation:同时返回avg、max、min、sum、count等
- Sum Aggregation:求和
- Top hits Aggregation:求前几
- Value Count Aggregation:求总数